Análisis de la motilidad intestinal utilizando Convolutional Deep Neural Network y la cápsula endoscópica

(1)

intestinal utilizando

Convolutional Deep Neural

Network y la c´

apsula

endosc´

opica

Autor: Pablo Mart´ınez

Director:

Dr. Santi Segu´ı

Departamento: Matem`

atica aplicada

i an`

alisi

(2)

(3)

La càpsula endoscòpica és una tècnica de diagnosi que obre un am-pli camp d’investigació a l’àrea cl´ınica. Mitjan¸cant la càpsula es poden obtenir v´ıdeos de tot el tracte digestiu, ja que aquesta és ingerida pel pacient.

S’han realitzat nombrosos treballs relacionats amb l’extracci´o de dades d’aquests v´ıdeos, entre ells una Convolutional Deep Neural Network capa¸c de classificar les imatges de l’intest´ı prim en sis classes diferents.

No obstant això, des que s’obté un v´ıdeo, fins que cadascuna de les imatges del v´ıdeo entren a la xarxa s’han de realitzar una serie d’operacions. En la primera part d’aquest document es proposa un procés per au-tomatitzar aquesta serie d’operacions sobre un o un conjunt de v´ıdeos, que a més permet guardar els resultats de la xarxa de forma que puguin ser tornats a avaluar. En la segona part del document s’utilitzen aquests resultats per crear una aplicació que pretén, sobre les dades extretes de les imatges, trobar seqüències en els v´ıdeos i segmentar-los d’acord amb aquestes seqüències.

La cápsula endoscópica es una técnica de diagnostico que abre un amplio campo de investigación en el área cl´ınica. Mediante la cápsula se pueden obtener v´ıdeos de todo el tracto digestivo, ya que esta es ingerida por el paciente.

Se han realizado numerosos trabajos relacionados con la extracci´on de datos de estos v´ıdeos, entre ellos una Convolutional Deep Neural Net-work capaz de clasificar las im´agenes del intestino delgado en seis clases distintas.

Sin embargo, desde que se obtiene un v´ıdeo, hasta que cada imagen del v´ıdeo entra a la Convolutional Deep Neural Network hay que realizar una serie de operaciones. En la primera parte de este trabajo se propone un proceso para automatizar toda esta serie de operaciones sobre uno, o un conjunto de v´ıdeos, que además permite guardar los resultados de la red de forma que puedan ser utilizados de nuevo. En la segunda parte del trabajo se utilizan estos resultados para crear una aplicación que pretende, sobre los datos extra´ıdos de las imágenes, encontrar secuencias en los v´ıdeos y segmentarlos en base a estas secuencias.

(4)

aparecen en el medio del camino y son tan grandes que te impiden ver mas allá, ese tipo de piedras que hacen que a cualquiera le entren ganas de sentarse y descansar antes siquiera de plantearse que hacer. Esos son los momentos en los que vuelve un requisito imprescindible tener unos buenos compañeros de viaje, ese tipo de gente que es capaz de darte un empujoncito o una colleja cuando toca, o incluso acompañarte durante un rato y ayudarte a saltar los baches necesarios.

Este no ha sido un camino fácil, y hubiese resultado imposible sin los compañeros de viaje adecuados. Tengo que agradecer especialmente la confianza de Santi Segu´ı, por la confianza y los ánimos infundidos du-rante estos cinco meses, por las cr´ıticas constructivas, y por ser un apoyo fundamental y necesario para que este trabajo saliera adelante. También me gustar´ıa mencionar a Micha l Dro˙zd˙zal por ser una fuente de inspiración por la forma de estructurar y racionalizar los problemas. A Eloi Puertas, por ser, de entre todos los profesores que he tenido a lo largo de estos cuatro años, el que mas collejas metafóricas me ha dado, y con el que he vivido una evolución profesional desde aquellos primeros d´ıas en Pro-gramació I pasando por Disseny de software, Software Distribu¨ıt, hasta Enginyeria del Software y Software Concurrent. Y a Xavier Moreno, por haberme sacado de todos los incendios en los que me he visto envuelto durante estos cuatro años de carrera.

Tambi´en tengo que hacer una menci´on especial a 11 jugadoras, en concreto las jugadoras de las que soy entrenador de baloncesto, por haber sido mi v´ıa de escape durante estos meses, por haberme dado alas en los momentos mas dif´ıciles.

Y no puedo acabar sin nombrar a aquellas personas con las que lo he compartido todo los últimos años, las cuestiones académicas, profesion-ales, deportivas. Muchas gracias a Sergio Redondo y a Guillem Palomar por estar ah´ı, siempre.

(5)

2.1.4 Eventos intestinales . . . 10

2.2 Motility bar . . . 10

3 Arquitectura del software 11 3.1 Modulos . . . 11

3.1.1 Aplicaci´on web . . . 11

3.1.2 Convolutional Deep Neuronal Network . . . 12

3.2 Volumen de datos . . . 14

4 Extracci´on de v´ıdeos 15 4.1 Empaquetado de un v´ıdeo en contenedores . . . 16

4.1.1 Un paquete por v´ıdeo . . . 16

4.1.2 Multiples paquetes por v´ıdeo . . . 17

4.2 Empaquetado de un v´ıdeo en un v´ıdeo . . . 18

4.2.1 Comparativa de formatos de compresi´on . . . 19

4.3 Conclusi´on . . . 21

4.4 Proceso de extracci´on en cadena para un conjunto de v´ıdeos . . . 21

4.4.1 Modificaci´on del software Matlab . . . 22

4.4.2 Programaci´on del proceso . . . 23

4.4.3 Pol´ıticas de consistencia de datos y gesti´on de errores . . 23

5 Análisis de v´ıdeos utilizando Convolutional Deep Neuronal net-work 31 5.1 Descripción técnica del análisis de v´ıdeos . . . 31

5.2 Analisis de la p´erdida de informaci´on . . . 31

5.2.1 Identificaci´on de im´agenes . . . 32

5.2.2 An´alisis de las diferencias . . . 32

5.2.3 Matriz de confusi´on . . . 36

5.2.4 Conclusiones . . . 36

5.3 Visualizaci´on de los resultados . . . 36

5.3.1 t-SNE . . . 37

(6)

6.2.1 k-means . . . 40 6.2.2 Aplicaci´on de k-means . . . 41 6.3 Segmentaci´on . . . 43 6.3.1 Tratamiento de bordes . . . 43 6.3.2 Tratamiento de ruido . . . 44 6.4 Resultados . . . 45 7 Conclusiones 49 8 Futuros trabajos 50 v

(7)

12 Empaquetado en un fichero . . . 17

13 Test de los m´etodos de extracci´on a ficheros . . . 19

14 Valores promedios de los valores calculados para los diferentes formatos . . . 20

15 Comparativa de las imágenes de v´ıdeos comprimidos con distintos perfiles. En la imagen 15b se han marcado las áreas que forman cada una de las imágenes del mosaico. . . 21

19 Mascara SB2 . . . 22

16 Diferencia en valor absoluto . . . 26

17 Diferencia m´axima en valor absoluto . . . 27

18 Desviaci´on est´andar . . . 28

20 Proceso Matlab de creaci´on de v´ıdeo . . . 29

21 (a) Listado de v´ıdeos (b) Carpeta contenedora de un v´ıdeo . . . 30

22 Comparativa de las im´agenes clasificadas bajo diferentes etiquetas 32 23 Evaluaci´on de las diferencias para la clase Wall . . . 33

24 Evaluaci´on de las diferencias para la clase Wrinkles . . . 33

25 Evaluaci´on de las diferencias para la clase Bubbles . . . 34

26 Evaluaci´on de las diferencias para la clase Turbid . . . 34

27 Evaluaci´on de las diferencias para la clase Clear . . . 35

28 Evaluaci´on de las diferencias para la clase Undefined . . . 35

29 Movimientos intestinales . . . 37

30 t-SNE . . . 38

32 Ejemplo de ejecuci´on del m´etodo k-means con dos iteraciones . . 41

33 Clusters de secuencias de 40 im´agenes . . . 42

38 Representaci´on de un punto en una secuencia . . . 44

39 Gr´afica de una secuencia de v´ıdeo segmentada sin suavizado. . . 44

40 Ejemplo de la aplicaci´on de un filtro de mediana . . . 45

41 Comparaci´on de la gr´afica de clases suavizada con el mosaico correspondiente. . . 46

(8)

45 Resultado del an´alisis de secuencias de 100 frames. . . 47 46 Resultado del an´alisis de secuencias de 120 frames. . . 48

(9)

a expulsarla de manera natural. Por otro lado esta cápsula no tiene ninguna capacidad terapéutica. El mayor problema de esta técnica es que analizar el v´ıdeo es una tarea muy larga y requiere de un personal especializado.

Dada esta problemática surge la necesidad de extraer información de un v´ıdeo de forma automática, sin tener la necesidad que haya una persona mirando todos y cada uno de los v´ıdeos. Dicho en otras palabras, se requiere automatizar el diagnostico, o la extracción de indicadores de los v´ıdeos.

1.1 Contexto

Este trabajo está basado en un proyecto que lleva activo desde 2008 y que viene de la mano de cuatro partners: Given Imaging Ltd., Centre de Visió per Computador, Universitat de Barcelona y Hospital Universitari de la Vall d’Hebrón. Durante estos años se han llevado a cabo diversas investigaciones en el campo de la visión por computador y el aprendizaje automático con el objetivo de solucionar el problema mencionado anteriormente: Extraer indicadores y clasificar v´ıdeos intestinales de forma automática.

1.2 Objetivos

El planteamiento de este trabajo se fundamenta en dos grandes bloques, que abarcan adem´as dos ´areas de conocimiento muy diferenciadas.

El primer bloque es la extracción de v´ıdeos. Dado un gran conjunto de v´ıdeos, se pretende programar un proceso que realice la extracción y el análisis de cada uno de los v´ıdeos de forma automática. Este bloque está situado en un ´

area muy técnica, ya que los conceptos con los que se trabaja van muy ligados a la arquitectura y la forma de trabajar de un ordenador y la problemática que surge cuando se utilizan múltiples sistemas.

La segunda parte trata de analizar los resultados de un v´ıdeo, extraer se-cuencias, clasificarlas y por ultimo segmentar un v´ıdeo en base a las secuencias identificadas previamente. Los conocimientos que se aplicarán en este bloque son, fundamentalmente, del área del aprendizaje automático.

(10)

1.3 Organizaci´

on del trabajo

El trabajo está dividido en siete secciones (sin contemplar esta sección intro-ductoria), una primera sección introductoria que habla de conceptos básicos, una segunda sección donde se muestran los módulos del proyecto donde se ha trabajado, una tercera sección que habla de la extracción de v´ıdeos, y la cuarta sección en la que se habla del análisis de los v´ıdeos y de los resultados obtenidos. Motilidad intestinal

Contiene una breve introducción a los conceptos básicos acerca de la motilidad intestinal. También se explican las particularidades de la cápsula endoscópica, que es, de que elementos mecánicos dispone, y las ventajas y desventajas de su uso.

Arquitectura del software

En esta secci´on se explican todos los m´odulos que forman el proyecto en el punto inicial del trabajo.

Extracci´on de v´ıdeos

Se explica la forma en la que han sido extra´ıdos los v´ıdeos de la WCE, como se ha realizado el procesamiento en las im´agenes y como se han guardado para minimizar el espacio de disco que ocupan.

An´alisis de v´ıdeos utilizando Convolutional Deep Neural Networks Introduce el concepto de Convolutional Deep neuronal network y como se proce-san los v´ıdeos utilizando una red ya entrenada, as´ı como tambi´en la forma en la que se guardan los resultados para volver a hacer uso de ellos cuando sea necesario sin tener que volver a procesar los v´ıdeos.

Clustering y segmentaci´on

Aqu´ı se explica el trabajo realizado para la construcción de secuencias de v´ıdeo y su posterior clasificación y segmentación. También se exponen los resultados obtenidos y la valoración de estos.

Conclusiones

Explicaci´on detallada de las conclusiones obtenidas durante la realizaci´on del trabajo. Constituyen un breve resumen de todo lo expuesto a lo largo de los diferentes apartados.

Trabajo futuro

Puntos que han quedado inconclusos durante el trabajo, ya que quedaban fuera del alcance de este, y que podr´ıan ser objeto de desarrollo en un futuro.

(11)

Feb Mar Abr May Jun Jul

Extracción Adaptar proceso Estudio formatos Análisis de v´ıdeo Aplicación a gran escala Visualización Control de errores Segmentación Comparativa formatos Clustering de secuencias Segmentación Análisis resultados Documentación

Sin embargo, como se puede observar en el segundo diagrama, que ilustra la duraci´on real de las tareas una vez finalizado el proyecto, hay algunas de las tareas que han sido mas largas en el tiempo de lo que se planific´o en un principio.

(12)

el tiempo dedicado a analizar todos los v´ıdeos, y el clustering de secuencias. También se puede observar en este segundo diagrama que la tarea de docu-mentación empezó mas tarde de lo planificado y acaba la última semana de julio.

Duraci´on real

Feb Mar Abr May Jun Jul

Extracción Adaptar proceso Estudio formatos Análisis de v´ıdeo Aplicación a gran escala Visualización Control de errores Segmentación Comparativa formatos Clustering de secuencias Segmentación Análisis resultados Documentación

En resumen cabe destacar que a efectos pr´acticos el proyecto se ha alargado dos semanas mas de las que fueron planificadas en un principio.

(13)

Organos accesorios Compuestos por el gl´andulas salivares, h´ıgado, ves´ıcula biliar y pancreas.

El tracto intestinal es el que se encarga f´ısicamente de mover la comida y cada órgano tiene una función especifica sobre esta (Figura 1a). En la boca, con el proceso de masticación, se tritura la comida y se mezcla con saliva generando as´ı el bolo alimenticio. A través del esófago, un tubo muscular, el bolo alimen-ticio es transportado hacia el estomago. El estomago sirve para que el bolo alimenticio se transforme en una papilla que de ah´ı en adelante será llamada quimo. Funcionalmente podr´ıa describirse como el reservorio temporal del bolo alimenticio, deglutido hasta que se procede a su transito intestinal, una vez bien mezclado en el estómago. El intestino delgado es el órgano que se encarga de la mayor parte de la absorción de nutrientes, mediante movimientos peristálticos se mezcla el quimo con las secreciones biliar y pancreática y duodenal. A la salida del intestino delgado el bolo alimenticio llega al intestino grueso donde este se limita a absorber los minerales el agua y las vitaminas liberadas por las bacterias que habitan en el colon. También se compactan las heces y se almacena el material fecal en el recto hasta que este es expulsado a través del ano.

El tamaño medio del intestino delgado en un hombre adulto es de 6.9m, y 7.1 en el caso de una mujer adulta. Este tamaño puede variar mucho, abarcando un intervalo de entre 4.6 y 9.8m de largo. El diámetro es de entre 2.5cm y 3cm aproximadamente y la superficie de la mucosa es de aproximadamente unos 30m2_{. El intestino delgado est´}_{a compuesto por tres partes diferenciadas (Figura}

1b:

Duodeno Está situado en la parte superior del abdomen, siendo la única porción del intestino delgado que se encuentra fijo, y está totalmente formado por músculo liso. Comienza en el p´ıloro y acaba en la flexura duodenoyeyunal, donde empieza el yeyuno. En el duodeno los alimentos se mezclan con la bilis y jugos digestivos del páncreas. Aqu´ı es donde empieza la absorción de vitaminas, minerales y otros nutrientes.

Yeyuno Está situado entre el duodeno y el ´ıleon, su función es realizar la ab-sorción de las sustancias del quilo alimenticio. En este tramo del intestino actúa el jugo intestinal que degrada los hidratos de carbono, prote´ınas

(14)

(a) Figura del tracto digestivo (b) Detalle del intestino delgado

Fig. 1

y l´ıpidos. La pared del yeyuno presenta vellosidades intestinales que se encargan de traspasar al torrente sangu´ıneo estas sustancias.

´_{Ileon Es la secci´}_{on final del intestino delgado.} _{Esta cumple con funciones} de secreci´on, absorci´on y motilidad que completan el procesado de los nutrientes. En este se absorbe la prote´ına B12 y la mayor parte de las

sales biliares.

El intestino delgado mueve el quimo a trav´es de un mecanismo fisiol´ogico denominado motilidad. Generalmente la motilidad intestinal puede ser catego-rizada de la siguiente manera:

Persitalsis Son una serie de contracciones musculares que se encargan de trans-portar los alimentos a las diferentes estaciones de procesamiento del tracto digestivo. La persitalsis es propia también de otros órganos, a parte del intestino delgado, como por ejemplo el esófago y el intestino grueso. Segmentación Consiste en la contracción simultánea de la musculatura

circu-lar de regiones vecinas y alternantes con la ´unica finalidad de mezclar el contenido sin moverlo a trav´es del tubo.

(15)

Fig. 2: Movimiento peristáltico a la izquierda, segmentación a la derecha El movimiento propio de la pared muscular se llama contracción. La peristal-sis y la segmentación están reguladas por tres tipos de contracciones: Las con-tracciones r´ıtmicas fásicas, que producen la mezcla del quimo y una propulsión lenta. Las contracciones ultrapropulsivas, que se encargan de mover el quimo rápidamente a través del intestino dejando a un lado la absorción de nutrientes. Por último encontramos las contracciones tónicas que se mantienen en perio-dos variables de entre varios minutos y algunas horas. Aún no se ha logrado determinar el papel de este tipo de contracciones en la digestión.

En el momento actual, la principal fuente de información, y la única prueba que nos puede llevar a un diagnóstico es la manometr´ıa intestinal. El estudio manométrico se viene usando desde hace varias décadas en las diferentes pa-tolog´ıas del tubo digestivo y su mayor importancia está en el estudio esofágico. Esta técnica está basada en la medición de presión de la pared intestinal, y tiene varias contrapartidas: Es altamente invasiva, no se puede visualizar el in-testino, solo se puede evaluar una pequeña parte del intestino y la complejidad de interpretación de los resultados.

2.1 C´

apsula endosc´

opica

La cápsula endoscópica (WCE) es una técnica reciente que permite la visual-ización de todo el tracto intestinal [3]. El proceso consiste en la ingestión de la cápsula, que dispone de un dispositivo de visualización. Esta registra un v´ıdeo a su paso por todo el aparato digestivo. El v´ıdeo se emite por radiofrecuencia y se graba en un dispositivo externo que debe de llevar el paciente encima. Cuando el estudio finaliza, este v´ıdeo puede ser descargado en un ordenador para su posterior evaluación por parte de los facultativos.

Actualmente existen tres versiones de la cápsula, cada una con sus propias caracter´ısticas técnicas, los nombres de las versiones son, en orden de aparición: SB1, SB2 y SB3. Existe una problemática intr´ınseca en el cambio de versión para el proyecto que nos ocupa, de la cual hablaremos mas adelante.

(16)

2.1.1 Descripci´on del dispositivo

Este dispositivo fue introducido en el mercado por Given Imaging Limited, la tecnolog´ıa consta de tres componentes principales: la cápsula, el dispositivo de grabación y el software de visualización.

La cápsula es un dispositivo apto para la ingesta equipado con la tecnolog´ıa necesaria para la grabación de v´ıdeos, incluyendo lamparas de iluminación y emisores de radiofrecuencia. Este dispositivo esta preparado para registrar imágenes durante 6 horas a a dos frames por segundo. Además es una cámara desechable, no necesita ser recuperada después de su expulsión, que se produce entre 10 y 72h después de la ingesta.

El dispositivo de grabación consta con una serie de receptores de señal conec-tados con una CPU y un disco duro para el almacenamiento de los datos. Los sensores se enganchan en el cuerpo del paciente y reciben la señal que emite la cápsula, que es procesada por la CPU y posteriormente almacenada en el disco. El software de visualización nos permite ver el v´ıdeo una vez extra´ıdo del disco duro para su análisis.

2.1.2 Ejemplo de im´agenes extra´ıdas

El v´ıdeo que graba la WCE es muy similar al que se graba con un endoscopio. Cada frame tiene un tamaño de 256x256px, renderizado en un campo de visión circular de 240 pixeles de diámetro, que comprende 140o de ángulo de visión, en los cuales podemos observar la pared intestinal y el lumen. El lumen es el centro del espacio tubular del intestino, como se muestra en la figura 3. Aún as´ı, tanto la cápsula como el intestino están en constante movimiento, lo que provoca que en lumen en algunas ocasiones sea visible solo parcialmente, o no sea visible. Además el campo de visión de la cápsula puede estar parcial o totalmente obstruido por el contenido intestinal.

2.1.3 Contenido intestinal

El contenido intestinal puede incluir dos paradigmas, denominados como turbid y bubbles. Turbid refleja la presencia de masa gástrica, que es la comida trans-formada por el proceso gástrico. bubbles, por otro lado representa las burbujas formadas por la presencia de agentes que reducen la presión de la superficie, eso se debe a la presencia de secreciones pancreáticas y biliares. En un v´ıdeo normal, con una preparación cl´ınica estándar, las imágenes que aparecen con turbid o bubbles representan entre un 5% y un 40% del total del v´ıdeo. A simple vista ambos paradigmas son fácilmente diferenciables como se puede observar en las figuras 4 y 5.

(17)

Fig. 3: Ejemplo de im´agenes extra´ıdas de un v´ıdeo

Fig. 4: Serie de frames clasificados como turbid

Fig. 5: Serie de frames clasificados como bubbles

Turbid Se presenta habitualmente como una región de textura homogénea con colores que pueden variar, como verde, amarillo, marrón incluso blanco. Bubbles Tienen una textura bien definida, caracterizada por diversas formas

(18)

blanco amarillo y verde, aunque pueden llegar a ser pr´acticamente trans-parentes.

2.1.4 Eventos intestinales

Los eventos intestinales describen el comportamiento del lumen y de la pared durante cortos periodos de tiempo. Podemos diferenciar entre dos eventos: Contracciones Se visualizan como una secuencia de frames en las que el lumen

se cierra y se vuelve a abrir, en la parte central de la secuencia podemos observar como el lumen crea una forma de estrella. Este estado en partic-ular ser´a denominado en adelante como wrinkles.

Periodos estáticos y túnel Los periodos estáticos representan la ausencia de actividad del intestino. La duración de estas secuencias es variable. Las secuencias de túnel se visualizan como un periodo estático en el que el lumen está relajado, al igual que en el caso de los periodos estáticos, la duración de estas secuencias es variable.

2.2 Motility bar

Los v´ıdeos intestinales pueden ser representados de dos formas distintas, vista a nivel de frame y vista longitudinal. La vista a nivel de frame ofrece un corte del intestino, mientras que la vista longitudinal es una representación de un segmento del intestino. Esta vista longitudinal es creada a partir de la extracción de una linea de pixeles de cada una de las imágenes del segmento.

Esta representación longitudinal ofrece ciertas ventajas sobre la vista a nivel de frame; reduce la información proporcionada por la WCE de 3D a 2D y es capaz de conservar la mayor parte de información sobre la motilidad intestinal.

Fig. 6: Segmento de un v´ıdeo representado mediante motility bar La construcción de la motility bar se realiza a partir de una técnica llamada Acut (Adaptative cut). Esta técnica intenta corregir la rotación arbitraria de la cámara y ofrecer en cada segmento la mayor parte de información posible, en concreto; se busca obtener la sección en la que se pueda ver la mayor parte del lumen.

(19)

3.1 Modulos

Actualmente, en el alcance de este proyecto existen dos módulos funcionales bien diferenciados, en particular un primer modulo que está alojado en un servidor del Centre de Visió per Computador (en adelante CVC), que consta de una apli-cación web y una serie de versiones de un software que clasifica v´ıdeos grabados mediante la cápsula intestinal. El segundo modulo es una red neuronal que extrae las caracter´ısticas de cada imagen y les asigna una etiqueta.

3.1.1 Aplicaci´on web

Esta aplicación web se utiliza solo para investigación, con ella trabajan los médicos para analizar v´ıdeos y extraer resultados, las acciones principales que se pueden llevar a cabo con esta aplicación son:

• Cargar v´ıdeos y guardarlos en bases de datos. Estas bases de datos per-miten a los médicos agrupar pacientes con algún criterio médico y obtener la unión de los datos tras evaluar dichos v´ıdeos. Cuando un medico carga un v´ıdeo a la aplicación, esta le obliga a introducir cierta información fundamental para procesar el v´ıdeo como son el tiempo de entrada en el intestino y el tiempo de salida, as´ı como otros datos que se requieren para tener un buen seguimiento del v´ıdeo.

• Evaluar v´ıdeos con las diferentes versiones del clasificador. Esta evaluación se hace de forma transparente al usuario y devuelve una puntuación (score) y una serie de indicadores que el medico utilizará posteriormente para sus estudios.

Cuando un medico evalúa un v´ıdeo, lo que sucede es que se llama a una versión (la que el usuario haya escogido previamente) de un software programado en Matlab que realiza las siguientes acciones 1) Extrae las imágenes, una a una, del archivo de v´ıdeo con el software propietario de Given Imaging en una carpeta del disco. 2) Realiza un pre-procesamiento de la imagen, que incluye la corrección de iluminación de la cápsula, la normalización de la imagen y el cambio de tamaño. 3) Pasa el v´ıdeo por el clasificador. Este extrae una serie de caracter´ısticas del v´ıdeo y le asigna una puntuación total, esta puntuación determina si se trata de un intestino normal o anómalo.

(20)

Fig. 7: Pantalla principal de la aplicaci´on web

3.1.2 Convolutional Deep Neuronal Network

Una Deep Neuronal Network (DNN) es un tipo de red neuronal artificial, las redes neuronales artificiales son una familia de modelos de aprendizaje basados en las redes neuronales biol´ogicas que se pueden encontrar en el centro nervioso de los animales. Estas se utilizan para estimar o aproximar funciones que pueden depender de un numero elevado de entradas. Se presentan habitualmente como sistemas de neuronas interconectadas que se mandan mensajes las unas a las otras. Las conexiones contienen pesos num´ericos que ser graduados en base a la experiencia, lo que hace que las redes neuronales sean adaptativas y capaces de aprender.

Las redes neuronales son capaces de modelar relaciones no lineales. Las capas extra permiten la composici´on de caracter´ısticas desde las capas mas bajas, ofreciendo un alto potencial para modelar datos complejos.

Las Convolutional Deep Neural Network (CNN) son usadas para reconocimiento de imágenes y consisten en diversas capas con colecciones de neuronas que se encargan de pequeños trozos de la imagen, llamados campos receptivos. Los resultados se encuadran de forma que se puedan superponer para obtener una mejor representación de la imagen. Esto se repite para cada capa de la red [9][8]. Para la realización de este trabajo se ha utilizado una Convolutional Deep Neuronal Network (CNN), para extraer las caracter´ısticas y las etiquetas de cada uno de los frames de los v´ıdeos que se analizan. Esta red está construida sobre caffe, que es un framework de deep learning [6], y ya hab´ıa sido entrenada antes del inicio de este proyecto.

Esta CNN recibe como par´ametro de entrada una imagen y es capaz de discriminar una imagen en una de las siguientes 6 clases:

(21)

Fig. 8: Representaci´on de una red neuronal

se da cuando la cápsula está girada. Este tipo de imágenes se caracterizan por ser muy homogéneas en el color y en la forma.

Wrinkles Cuando hay una contracci´on de la pared intestinal y el lumen se cierra se puede observar que se crea una especie de forma de estrella. Turbid Observamos restos de alimentos, estas im´agenes pueden ser de colores

muy distintos.

Bubbles Se aprecian burbujas en el contenido intestinal. Tambi´en existen diversos rangos de colores para este fen´omeno.

Clear Las im´agenes de clear son aquellas en las que no hay contracci´on intesti-nal y el lumen crea una forma circular muy definida.

Undefined Estas son las im´agenes que no representan ninguno de los fen´omenos anteriores.

La salida de la red es un vector 6-dimensional con valores en rango donde cada valor es un numero real entre 0 y 1 que determina la probabilidad de

(22)

Fig. 9: Ilustraci´on del funcionamiento de una red neuronal convolucional

pertenencia a la clase. La predicción corresponde al ´ındice del valor máximo de este vector, por ejemplo; si se observa una imagen con un vector de resultados [0.2, 0.1, 0, 5, 0.05, 0.05, 0.1], la predicción de clase ser´ıa 2 (teniendo en cuenta de que el primer valor corresponde a la clase 0).

Para llevar a cabo esta clasificación, del mismo modo que en el software Matlab, hay que realizar una serie de operaciones previas sobre la imagen, para que coincida con el tipo de imagen con las que la red ha sido entrenada, como la corrección de la iluminación, la normalización y el cambio de tamaño de la imagen para recortar los bordes.

3.2 Volumen de datos

En el servidor que aloja la aplicación web también se guardan todos los v´ıdeos que procesan los médicos. Estos v´ıdeos suponen la grabación completa de la cápsula, es decir desde que esta entra por la boca hasta que llega al intestino grueso. Por lo tanto la duración de cada v´ıdeo es de entre 5h y 7h. Eso supone, si sabemos que la cápsula graba a dos frames por segundo, que cada v´ıdeo contiene un rango de 36000 a 50400 imágenes, lo cual es un gran volumen de información.

(23)

la cápsula entra al intestino y el tiempo en el que sale de el. Esta información está guardada en la base de datos de la aplicación web.

Fig. 10: Proceso de extracci´on de im´agenes

Esta etapa en el ciclo de vida de la aplicación resulta extremadamente costosa por los factores siguientes 1) Un v´ıdeo tiene una duración de aproximadamente 4h, 2) El software propietario realiza la extracción imagen por imagen y las guarda en disco. El problema surge cuando se pretende trabajar con ese volumen de información en diversos sistemas, ya que el número de ficheros que se genera de la extracción de un v´ıdeo es de alrededor de 50.000. Además de un problema de uso de disco, la transferencia entre sistemas por la red se vuelve una tarea tediosa.

Aqu´ı se tratarán una serie de aproximaciones que intentan solventar, o re-ducir al m´ınimo, este problema. Los métodos utilizados intentan eliminar, en primer lugar, la fragmentación de ficheros. Es decir, se pretende trabajar a nivel de sistema operativo con unos pocos ficheros, minimizando as´ı el tiempo de ac-ceso a disco y tener la mayor parte de los datos en memoria. También se intenta reducir el tamaño de los ficheros y minimizar el espacio de disco ocupado. Esta segunda parte tiene mucho sentido cuando se trabaja con un set de v´ıdeos muy grande, como es el caso.

Es importante remarcar que todo el código producido, de ahora en adelante, será código escrito en Python, que cuando as´ı lo requiera hará llamadas a sistema para ejecutar el software de Matlab.

(24)

4.1 Empaquetado de un v´ıdeo en contenedores

Esta es la primera idea que aparece, crear un contenedor de imágenes que con-tenga toda la información del v´ıdeo encadenada en forma de matriz. Hay que tener en cuenta que los ficheros que genera Matlab después de aplicar todos los procesos a cada una de las imágenes son ficheros .mat. Para ello utilizaremos un sistema extremadamente sencillo, concatenar las imágenes y guardarlas a disco utilizando un modulo de Python de data marshalling llamado pickle.

4.1.1 Un paquete por v´ıdeo

Fig. 11: Empaquetado en un fichero

El proceso a seguir en esta tarea (Figura 11) es el siguiente: 1) Para el v´ıdeo que se quiere empaquetar, recupera el momento de entrada y salida al intestino de la base de datos de la aplicación web. 2) Llama al programa de Matlab que se encarga de extraer las imágenes del fichero de v´ıdeo codificado y realizar las operaciones pertinentes sobre cada imagen. 3) Carga en memoria todas las imágenes grabadas en disco y las guardas en un solo fichero.

f i l e l i s t = o s . l i s t d i r ( d i r I n ) f o r f in f i l e l i s t : i f f . e n d s w i t h ( ” . mat” ) : im = readMat ( d i r I n+f ) v i d . append ( im ) f l i s t . append ( f )

(25)

entre las im´agenes guardadas de una en una y las im´agenes grabadas en paquetes es 1 a 1 aproximadamente.

Además existe otro problema añadido si se cambia ligeramente el planteamiento. ¿Que sucede, si, en lugar de querer realizar una operación en serie para todas las imágenes solo se pretende trabajar con un pequeño set de todas ellas? En este caso el problema seria que, en cualquiera de los casos, es necesario cargar todo el fichero en disco, lo cual supone una perdida de tiempo y espacio en memoria. 4.1.2 Multiples paquetes por v´ıdeo

Una extensión del método anteriormente mencionado ser´ıa crear paquetes de n imágenes, de forma que se pierde un poco en fragmentación respecto al primer método, pero sin embargo se gana mucho en tiempo de acceso si solo necesitamos un set pequeño de imágenes. Se trata en este caso de un método h´ıbrido (Figura 12).

(26)

La variación entre los dos métodos es pequeña, en este caso la única diferencia es que en este caso el empaquetamiento se hace durante la iteración sobre los ficheros f o r f in f i l e l i s t : i f f . e n d s w i t h ( ” . mat” ) : c o u n t +=1 im = readMat ( d i r I n+f ) v i d . append ( im ) i f c o u n t == n f r a m e s : f r a g m e n t += 1 c o u n t = 0 dump( d i r O u t , fname+s t r ( f r a g m e n t ) , v i d ) v i d = [ ] i f len ( v i d ) > 0 : dump( d i r O u t , fname+s t r ( f r a g m e n t ) , v i d ) v i d = [ ]

Aunque en este caso se mejora el tiempo de acceso a las imágenes respecto al método anterior (ya que los packs de frames son más pequeños) el espacio de disco ocupado sigue siendo una frontera infranqueable en el caso de que queramos trabajar con un volumen grande de v´ıdeos.

Para solucionar este problema se propone la solución de comprimir los datos utilizando un formato de compresión común, como es TAR. Mediante este for-mato de archivo se logra reducir la cantidad de espacio ocupado en el disco, aunque a cambio se pierde tiempo en comprimir y descomprimir cada vez que quieres acceder a los datos.

Se realiza un test para evaluar los métodos de extracción: sin empaquetar, empaquetado en múltiples archivos, empaquetado en múltiples archivos y com-primido. Este test evalúa el máximo de cada una de las imágenes. Este test nos devolverá un tiempo que, asumiendo que la operación de calcular el máximo tiene un tiempo n que es constante para imágenes del mismo tamaño, la difer-encia entre los resultados será la diferencia de tiempo de carga de los ficheros (Figura 13).

4.2 Empaquetado de un v´ıdeo en un v´ıdeo

El empaquetado a v´ıdeo surge cuando se enfoca el problema a reducir al máximo el tamaño de disco. Cuando se habla de compresión de datos hay que tener presente dos tipos de compresión, la compresión con perdidas y la compresión sin perdidas. Es decir, si se quiere ganar mucho espacio de disco hay que estar dispuesto a perder información.

(27)

Fig. 13: Comparativa de los tres m´etodos, el primero todos los ficheros en la carpeta, el segundo los ficheros empaquetados en formato TAR, el tercero los ficheros empaquetados sin comprimir.

En este caso se ha utilizado la API de Matlab para codificar los v´ıdeos. Esta nos permite utilizar tres perfiles de codificación con compresión: Archival, Motion JPEG AVI, MPEG-2. En este caso ordenados de menor a mayor com-presión.

Archival Se refiere a una codificación de tipo Motion JPEG 2000. En el caso de la API de Matlab utiliza este perfil para la compresión sin pérdidas. Es decir, ahorramos espacio manteniendo la información de forma integra. Motion JPEG AVI (MJPEG) Este formato de compresión de v´ıdeo

com-prime independientemente cada imagen como una imagen JPEG.

MPEG-4 Es el estándar de compresión de v´ıdeo y audio para streaming. Pro-porciona un alto ahorro de espacio de disco a cambio de una perdida de información moderadamente alta.

4.2.1 Comparativa de formatos de compresi´on

Se ha llevado a cabo una prueba de compresión en los tres formatos para ver cuan grande es la perdida de información en cada uno de ellos, sabiendo de antemano que el perfil Archival no tendrá ninguna pérdida, el perfil MJPEG tendrá perdidas moderadas, y el perfil MPEG-4 tendrá perdidas de información altas. Aún as´ı, y teniendo en cuenta que un v´ıdeo codificado con MPEG-4 ocupa

(28)

un 5% del espacio en disco que el mismo v´ıdeo codificado con compresión sin pérdidas, es necesario hacer la comprobación pertinente para cerciorarse de si es o no menospreciable esa pérdida.

Para obtener los siguientes resultados la prueba realizada ha sido la siguiente: 1) Extrae las imágenes y realiza el pre-procesamiento 2) Guarda las imágenes con los tres perfiles de compresión 3) Calcula las diferencias1_{, las diferencias}

entre m´aximos2 _{y la desviaci´}_{on est´}_andar3 _{de todos los frames.}

Las figuras 16, 17 y 18 muestran los resultados obtenidos de las pruebas anteriormente mencionadas para un v´ıdeo. Como se puede observar, los rangos de valores entre los que oscilan las m´etricas que se han extra´ıdo al comprar los v´ıdeos son mucho mas altos en el caso de aquellos comprimidos en el formato MPEG-4.

Para certificar esta afirmaci´on se han calculado los valores promedio de los indicadores extra´ıdos. En la figura 14 se muestran la tabla de resultados.

Fig. 14

Analizando la tabla anterior se puede ver que la perdida de información en el caso de los v´ıdeos en formato MPEG-4 (Denotado como .mp4 en la tabla) es muy alta, solo hace falta ver que la desviación estándar de los valores de los pixeles es de un 3.04%. En la figura 15 se pueden observar las diferencias visuales entre los formatos.

1_{c = |A − B|} 2_{c = max(|A − B|)} 3_{c =}√_µ

(29)

(a) Unión de las tres imágenes (b) Diferencias señaladas

Fig. 15: Comparativa de las imágenes de v´ıdeos comprimidos con distintos perfiles. En la imagen 15b se han marcado las áreas que forman cada una de las imágenes del mosaico.

4.3 Conclusi´

on

Después de analizar los pros y los contras de cada método de extracción y alma-cenamiento de datos se ha decidido utilizar la compresión en v´ıdeo utilizando el formato de compresión MJPEG, ya que es el formato que tiene los indicadores mas centrales, poca perdida de información y una reducción considerable de uso de disco.

Cuando se trate el tema de la clasificación de las imágenes se llevará a cabo una evaluación mas exhaustiva del impacto de la perdida de información.

4.4 Proceso de extracci´

on en cadena para un conjunto de

v´ıdeos

El objetivo actual es extraer todo el conjunto de v´ıdeos y guardarlos como v´ıdeos para posteriormente poderlos transferir a otra maquina y analizarlos. Esto supone una tarea muy costosa en t´erminos de tiempo, ya que la extracci´on de un solo v´ıdeo dura entre dos y cuatro horas, y el repositorio de v´ıdeo consta de alrededor de 400 v´ıdeos, con lo cual, suponiendo que no hubiese fallos y se pudiese ejecutar el proceso de forma ininterrumpida, se prolongar´ıa unos 50 d´ıas.

El hecho de programar el proceso se puede dividir en una serie de tareas, en primer lugar se debe de modificar el código existente en Matlab para que cuando acabe de hacer el pre-procesamiento de las imágenes las guarde en un archivo de v´ıdeo. En segundo lugar se deberá de crear la rutina de python que para cada uno de los v´ıdeos lance una instancia de Matlab de forma secuencial y sea notificado cuando este acabe. En tercer lugar, y mas importante, para

(30)

un proceso tan largo se deben establecer pol´ıticas de consistencia de datos para que si el proceso es interrumpido se pueda recuperar sin perder informaci´on ni dejar datos corruptos en el camino.

4.4.1 Modificaci´on del software Matlab

En lo que a la parte de Matlab se refiere hay una serie de puntos a detallar que son importantes para el análisis posterior, lo que hasta este momento se mencionaba como el pre-procesamiento de imágenes. Este conjunto de opera-ciones que se realizan a nivel de frame son necesarias para la clasificación de los mismos.

Como ya se ha dicho antes, en la aplicaci´on tenemos distintas versiones del clasificador, sin embargo, el proceso aplicado a las im´agenes es invariante. Por pasos, el proceso que realiza antes de clasificar es el siguiente:

Extracci´on de im´agenes Se lanza el software de Given y se extraen los frames uno a uno y se guardan en el disco, en una carpeta con el mismo nombre que el v´ıdeo.

Cambio de nombre de las im´agenes Las im´agenes extra´ıdas por el soft-ware de Given tienen los nombres: ”0”, ”1”, ”2”, ..., ”n”. Los nombres se cambian para que sean ”000001”, ”000002”, ... .

Conversión a .mat Esta conversión se realiza para la comodidad del trabajo con dichas imágenes. .mat es un formato propio de Matlab.

Reverse ALC (Automatic Light Correction), esta operación corrige la ilumi-nación de la imagen dadas las caracter´ısticas de la cápsula. También se aplica una mascara (Figura 19), esta mascara se resta de la imagen origi-nal y de esta forma se elimina el ruido que se haya podido registrar en la zona vac´ıa de la imagen. Estas operaciones son dependientes de la versión de cápsula que se esté utilizando.

Extracci´on de caracter´ısticas Se crean las caracter´ısticas b´asicas de cada imagen.

Fig. 19: Mascara aplicada para la versi´on SB2

Para el propósito que se persigue aqu´ı, solo es necesaria la ejecución hasta el punto de la corrección de iluminación. Además, aprovechando la API para

(31)

proceso que se prolongar´a durante alrededor de un mes. Las operaciones que debe de realizar son las siguientes:

Selecci´on de un v´ıdeo En primer lugar se selecciona un v´ıdeo de todos los disponibles en una carpeta.

Consulta de datos Dado el nombre del v´ıdeo seleccionado se consulta en la base de datos la información de el tiempo de entrada, el tiempo de salida, el tiempo de nutrición, etc. Estos datos son imprescindibles ya que el programa en Matlab elimina los frames fuera de los limites de ese tiempo. Extracción, pre-procesamiento y codificación Se llama al programa de Matlab que extrae los v´ıdeos, procesa las imágenes y vuelve a codificarlas como v´ıdeo.

Eliminación de datos El programa de Matlab deja trazas de los progresos realizados, para poder retomar el proceso en caso de que este falle en el punto en el que se quedó. Estas trazas se pueden borrar una vez Matlab ha acabado. También hay que borrar las imágenes que se generan durante la etapa de extracción de datos.

Aunque se trata de un proceso fácilmente paralelizable, dado que se pretende realizar la misma operación en todos los archivos, y que estas operaciones son independientes entre ellas, en este caso las caracter´ısticas del hardware de la maquina en la que se pretende trabajar limitan este proceso. Esto es debido a que, como se ha comentado anteriormente, un v´ıdeo extra´ıdo frame a frame ocupa mucho espacio de disco, y este es muy limitado. Esto es un dato a tener en cuenta en la gestión de errores.

4.4.3 Pol´ıticas de consistencia de datos y gesti´on de errores

Para entender como se van a gestionar los errores hay que entender como están estructurados los datos. Para el caso que se trata cada v´ıdeo está representado en el sistema como un directorio que contiene el archivo de v´ıdeo además de otra información (Figura 21b). Todos los v´ıdeos (721) están listados en una carpeta (Figura 21a).

(32)

Este proceso, por una cuestión de tiempo de computo, debe de ser un proceso no supervisado, ya que es materialmente imposible que haya una persona pen-diente de los fallos durante toda la ejecución. Esto significa, a efectos prácticos, que el proceso ha de ser resistente a los errores. Estos errores pueden ser debidos a diversas causas. Según la causa los categorizamos como:

Errores causados por agentes externos • El servidor se reinicia o se desconecta Errores en tiempo de ejecuci´on

• Los datos para un v´ıdeo no est´an en base de datos • La extracci´on del v´ıdeo falla

• El espacio de disco es insuficiente

como por ejemplo que un archivo de v´ıdeo est´e corrupto, que en un momento determinado no se pueda acceder a la base de datos, o directamente que el proceso termine de forma inesperada (el servidor en el que se est´a ejecutando se apaga).

Conceptualmente se definen los estados en los cuales puede estar el proceso como:

• Recuperando datos • Ejecutando Matlab • Borrando datos

La premisa es que este estado se tiene que recuperar si se produce un fallo en el proceso, sea por agentes externos, sea un error de ejecuci´on.

La pol´ıtica que se sigue para prevenir los casos de errores causados por agentes externos es la de utilizar checkpoints. Este mismo concepto se utiliza también en el programa Matlab, el proceso va dejando trazas en ficheros de los pasos que inicia/completa, as´ı en caso de tener que recuperarse de un fallo solo tendrá que ver que está hecho y que no, y podrá seguir trabajando sin problemas. En este caso solo hay que tener en cuenta los fallos en los estados ”Ejecutando Matlab” y ”Borrando Datos”, ya que la recuperación de datos no es una operación cr´ıtica, no afecta a la consistencia.

En este caso en lugar de ficheros lo que hace el programa es ver si una carpeta est´a creada o no y eso le indica por donde seguir del proceso. Es decir si lista todas las carpetas de la lista de v´ıdeos procesados y tenemos en cuenta que este proceso siempre lista los v´ıdeos con el mismo orden

Aquellos errores que si que se han de gestionar son los que se producen cuando falla el programa de Matlab. Esto puede suceder por diversas causas, 1) El v´ıdeo es incorrecto; porque no está grabado con la cápsula correspondiente a la versión del extractor que se está utilizando, o porque el v´ıdeo esté corrupto. 2) Matlab es interrumpido por causas externas al propio software, como por

(33)

como no procesable y se guarda esta informaci´on en disco.

4_{Se ha considerado 5 intentos la cantidad adecuada para determinar que un v´ıdeo est´}_a

(34)

(a) MJPEG

(b) MPEG-4

(35)

(a) MJPEG

(b) MPEG-4

(36)

(a) MJPEG

(b) MPEG-4

(37)

(38)

(a)

(b)

(39)

programación. También se utiliza Matlab para facilitar el acceso a v´ıdeos. Todo el código generado en este apartado está escrito en Notebooks de iPython.

5.1 Descripci´

on t´

ecnica del an´

alisis de v´ıdeos

Para realizar el an´alisis de v´ıdeos se utiliza la CNN previamente entrenada que se detalla al principio del documento. Hay que recordar que esta red es capaz de discriminar cada imagen en una de las 6 clases con las que se trabaja.

En la aplicación práctica lo que se ha hecho ha sido, para cada una de las imágenes evaluadas de un v´ıdeo, guardar en un vector correspondiente al v´ıdeo, un diccionario que contiene; 1) La predicción de la clase, 2) Las puntuaciones de clase, 3) el ´ındice de la imagen en el v´ıdeo, 3) los resultados fully connected de la capa 7, que es la penúltima capa de la CNN, justo la capa anterior a la reducción de las caracter´ısticas de la imagen a un vector de clases. La capa 7 está representada como un vector de 512 posiciones.

El resultado del an´alisis de todo el conjunto de v´ıdeos se traduce en un conjunto de archivos correspondientes cada uno a un v´ıdeo, y que contienen un vector de diccionarios, donde cada diccionario contiene los resultados de la evaluaci´on de una imagen.

5.2 Analisis de la p´

erdida de informaci´

on

En este punto se retoma el tema de la perdida de información ocasionada por la compresión de los archivos de v´ıdeo, ya que aún sabiendo que se pierde una cantidad pequeña de información se debe de conocer el alcance de esta perdida dentro del proceso de clasificación que se lleva a cabo utilizando la CNN.

Para ello se han comprimido 4 v´ıdeos con codificación Archival (Sin pérdidas) y MJPEG y se han analizado imagen a imagen mediante la red neuronal. El proceso de análisis para cuantificar la información que se pierde se ha llevado a cabo siguiendo los siguientes pasos: 1) Identificar las imágenes que han cam-biado de etiqueta, 2) medir las diferencias en los scores de dichas imágenes 3) Elaborar una matriz de confusión para visualizar como se han distribuido aquellas imágenes que se han etiquetado diferente.

(40)

(a) Im´agenes Archival

(b) Im´agenes MJPEG

Fig. 22: Comparativa de las im´agenes clasificadas bajo diferentes etiquetas

5.2.1 Identificaci´on de im´agenes

Dado el formato de los resultados para identificar esos frames que se han clasifi-cado distinto solo tenemos que iterar por las dos listas de predicci´on y comparar las etiquetas. Para todos los v´ıdeos tomados para hacer el test, de un total de 41944 im´agenes se han clasificado diferente 350. Esto representa un 0.83% sobre el total.

El primer análisis que se debe de realizar es el visual. Mirar si existen diferencias sustanciales a primera vista respecto a las imágenes. En la figura 22 se puede observar que no existen diferencias significativas en las imágenes. 5.2.2 Análisis de las diferencias

Una vez escogidas las imágenes con las que se trabajará hay que medir la difer-encia en las puntuaciones de cada clase para cada una de las imágenes para poder observar cual es la clase con mas variación para estas imágenes. Las fig-uras 23, 24, 25, 26, 27 y 28 muestran cada una de ellas dos gráficos. El primero ilustra las probabilidades de pertenecer a la clase de cada frame para el caso de un v´ıdeo con perdidas y sin perdidas. El segundo es la diferencia de las dos. Es importante remarcar de esos gráficos que los picos de las diferencias oscilan alrededor de 0.05, salvo en el caso de la clase Undefined, cuyos picos son ligeramente mas altos.

(41)

(b) Diferencias para la clase Wall

Fig. 23

(a) Comparativa Wrinkles

(b) Diferencias para la clase Wrinkles

(42)

(a) Comparativa de la clase Bubbles

(b) Diferencias en la clase Bubbles

Fig. 25

(a) Comparativa de la clase Turbid

(b) Diferencias de la clase Turbid

(43)

(b) Diferencias de la clse Clear

Fig. 27

(a) Comparativa de la clase Undefined

(b) Diferencias de la clase undefined

(44)

5.2.3 Matriz de confusi´on

Para tener una visión completa del impacto de la perdida de información en esta aplicación se ha construido una matriz de confusión. La matriz de con-fusión, habitualmente, se utiliza para representar las predicciones contra las clases reales (ground truth). En este casi sin embargo, no se conoce la clase real, sino que se contrapone la predicción de los v´ıdeos codificados sin pérdidas con-tra la predicción de los v´ıdeos codificados con MJPEG. La información que se pretende extraer de la matriz es a que clases van a parar aquellas imágenes que no son clasificadas de la misma manera por culpa de la perdida de información, es por esta razón que, al solo evaluar dichas imágenes la diagonal está vac´ıa.

Como se puede observar en la figura 29 los resultados obtenidos son bastante razonables, ya que la mayor parte de las imágenes que han sido clasificadas en distintas clases son imágenes con una puntuación muy alta para la clase Undefined y que esta ligera perdida de información hace que cambien de clase. También hay que destacar las imágenes que han pasado de Turbid a Bubbles y viceversa, que también representan un volumen bastante elevado. Esto se debe a que en la práctica son dos clases con mucho solapamiento.

5.2.4 Conclusiones

En la sección donde se trata la extracción del v´ıdeo se discute sobre los posibles formatos de compresión y la perdida de información asociada a cada uno de ellos. En ese momento se considera razonable el uso del formato de compresión MJPEG utilizando los estad´ısticos estándar para cuantificar las diferencias, sin tener en cuenta la implicación en los resultados de la clasificación.

En este momento y con la información obtenida en esta sección se puede aceptar este formato de compresión ya que la incidencia de la perdida de in-formación en lo que a la clasificación respecta es m´ınima y afecta a aquellas imágenes que, cuando se analizan visualmente, cuesta discriminar la clase a la que pertenecen.

5.3 Visualizaci´

on de los resultados

Una vez que se han analizado los v´ıdeos se requiere visualizar los resultados utilizando las caracter´ısticas representadas por la pen´ultima capa de la CNN (fc7). Como se ha mencionado anteriormente, estos resultados son un vector de 512 caracter´ısticas. Esto supone que se pretende representar en un mapa de dos dimensiones un punto definido en 512 dimensiones, lo que en la pr´actica es imposible.

Para esta finalidad existen una serie de métodos de reducción de dimensiones que ofrecen una representación mas o menos fiel de la distribución de los puntos en el espacio.

(45)

Fig. 29: Matriz de confusi´on

5.3.1 t-SNE

t-Distributed Stochastic Neighbour Embedding es una de estas técnicas de re-ducción de dimensiones, una variación de SNE mas sencilla de optimizar y que ofrece una mejor visualización, ya que reduce la tendencia de que los puntos se concentren en el centro del mapa.

El algoritmo t-SNE comprende dos etapas, en primer lugar se construye una distribución de probabilidad entre parejas de objetos de grandes dimensiones, de forma que objetos similares tienen una alta probabilidad de ser escogidos, mientras que los puntos que no se parecen tienen una baja posibilidad de ser escogidos. En segundo lugar se define una probabilidad similar en los puntos del mapa de dimensión baja y minimiza la divergencia Kullback-Leibler5entre dos distribuciones respecto a la localización de los puntos en el mapa [2].

La principal diferencia entre esta técnica y otras técnicas clásicas de re-ducción de dimensiones, como podr´ıa ser PCA (Principal Component Analysis) es que, estas últimas, son técnicas lineales que se centran en representar los puntos menos semejantes muy separados en bajas dimensiones. Sin embargo t-SNE es una aproximación no lineal, y se centra en mantener los puntos mas

5_{Es una medida de no similitud de la diferencia entre dos distribuciones de probabilidad P}

(46)

semejantes cerca en su representaci´on en bajas dimensiones [2].

Para aplicar el algoritmo se han utilizado los resultados obtenidos tras analizar todas las imágenes de un v´ıdeo. Como descriptores de cada uno de los frames se ha utilizado el vector de 512 caracter´ısticas correspondiente a la penúltima capa de la red. Tras la aplicación del algoritmo se han pintado cada uno de los puntos con un color distinto en función de la clase a la que pertenecen.

La figura obtenida tras la aplicación del algoritmo (Figura 30) sobre los re-sultados de un v´ıdeo permite observar la distribución de las clases. Se puede ver como las clases Clear Turbid y Bubbles son muy cercanas y con bastante sola-pamiento entre ellas, Wrinkle y Wall están mas alejadas, y Undefined forma una nube de puntos que se encuentra en el espacio que hay entre las clases, aunque también hay que notar que en el espacio mas central ocupado por wrinkles caen bastantes imágenes clasificadas como wall.

Fig. 30: Reducci´on de los vectores de caracter´ısticas a 2 dimensiones utilizando t-SNE

(47)

6.1 Construyendo el dataset

La informaci´on de la que se dispone a nivel de frame en el momento de la construcci´on del dataset consta de dos vectores de caracter´ısticas. Como ya se ha mencionado antes.

Esto supone que, para representar una secuencia en base a la la información de penúltima capa de la red se deberán representar como vectores de n × 512 dimensiones, donde n es la longitud (en frames) de la secuencia.

Que longitud utilizar es la primera incógnita que surge en el momento de empezar a evaluar secuencias de frames, ya que n ha de ser constante. Esta es la limitación mas grande en el momento de crear clusters, ya que los eventos intestinales tienen una duración variable. La estrategia en este caso será encon-trar una n que permita recoger aquellos eventos que tienen una duración corta, y que además aporte algún tipo de información para eventos de larga duración. Para determinar una longitud óptima, y teniendo en cuenta las particular-idades de los eventos intestinales, se realizarán pruebas con 40, 60, 80, 100 y 120 imágenes, lo que, teniendo en cuenta que la WCE graba a dos frames por segundo suponen 20’, 30’, 40’, 50’ y 1m de v´ıdeo.

6.2 Clustering

Se conoce como clustering la tarea de agrupar objetos en clases (clusters) de tal forma que los objetos contenidos en estas clases sean semejantes entre ellos. Existen diversos algoritmos que atacan este problema de formas muy distintas, el algoritmo a utilizar en cada uno de los casos depende del modelo de datos.

Hay dos grandes técnicas de agrupamiento; el agrupamiento jerárquico, que puede ser aglomerativo6 o divisivo7, y el agrupamiento no jerárquico, en el que el numero de grupos se determina de antemano y las observaciones se asignan a ellos en función de su cercan´ıa.

Algunos de los algoritmos mas conocidos para la creaci´on de clusters son: Expectation-Maximizacion, Agrupamiento jerarquico, Mean-Shift, k-Means etc. Cada uno de ellos tiene sus ventajas y sus inconvenientes

6_{Cada observaci´}_{on comienza en su propio grupo y los pares de grupos se mezclan a medida}

que se sube en la jerarqu´ıa

7_{Las observaciones comienzan en el mismo grupo y se realizan divisiones a medida que se}

(48)

Fig. 31: Aplicaci´on de clustering en un set de datos de ejemplo. Cada color representa un cluster.

6.2.1 k-means

El algoritmo k-means es un m´etodo iterativo que extrae n clusters (determinados por el usuario) de un dataset. Este algoritmo opera en un set de vectores d-dimensionales [5]. El algoritmo se inicializa escogiendo k puntos en <d_{. Este}

set de puntos iniciales se denominan centroides. Hay diferentes t´ecnicas para inicializar estos centroides, por ejemplo asignarlos aleatoriamente, o hacer el clustering en primer lugar sobre un dataset mas peque˜no. Una vez inicializado el algoritmo se ejecuta en dos pasos:

Asignaci´on de datos Cada uno de los puntos del dataset es asignado al cen-troide mas cercano, decidiendo los empates de forma arbitraria. Estos resultados conforman una partici´on de los datos.

Repoisicionamiento de los centroides Cada representante de un cluster se coloca en el centro de los puntos asignados a este.

La figura 32 muestra dos ejecuciones del algoritmo con un dataset de dos clusters claramente diferenciados y en un caso ´optimo.

Este algoritmo converge cuando las posiciones de los centroides no cambian de una iteraci´on a otra. En cada iteraci´on el algoritmo realiza N × k compara-ciones, lo que determina la complejidad. El numero de iteraciones que se deben

(49)

Fig. 32: Ejemplo de ejecución del método k-means con dos iteraciones: a) Dataset b) Posicionamiento de los centroides Asignación de los puntos del dataset al centroide mas cercano d) Reposicionamiento de los centroides e) Asig-nación de puntos f) Calculo de la posición del centroide

6.2.2 Aplicaci´on de k-means

Para este problema en particular se ha escogido k-means como el algoritmo para agrupar los datos de los que se disponen. Como se ha mencionado anteriormente, este es un algoritmo de agrupamiento no jerárquico, de tal forma que el número de clases tiene que estar determinado de antemano. La búsqueda de patrones en secuencias, que se pretende realizar, es una prueba exploratoria, con lo cual no existe ninguna información previa sobre cuantos grupos existen.

En base a esto, para poder aproximar de una forma emp´ırica el número de grupos, lo primero que se hará será una visualización de los datos en un mapa de dos dimensiones, para ello se utilizará el algoritmo t-SNE.

En la prueba realizada se han extra´ıdo 1000 secuencias de v´ıdeo de tama˜no, 40, 60, 80, 100 y 120 frames.

A simple vista, cuando se trabaja en dos dimensiones, en cualquiera de los casos se pueden diferenciar entre 5 y 6 clases relativamente bien definidas. Se asumir´a, para los siguientes experimentos, que son 6 las clases que se generan

(50)

al evaluar secuencias. Esto tiene sentido considerando el hecho de que cuando se clasifica a nivel de frame tambi´en se discriminan 6 clases.

A modo de prueba exploratoria, y con tal de ver las diferencias al trabajar con diferentes números de clusters, se han realizado análisis con 2, 3, 4, 5, 12 y 32 clusters. Estos resultados no aportan ninguna información respecto a las conclusiones extra´ıdas cuando se trabaja con 6 clusters,

En las figuras 33, 34, 35, 36 y 37 se puede observar el resultado de la apli-caci´on de k-means y t-SNE que son el resultado de la prueba realizada.

Fig. 33: Clusters de secuencias de 40 im´agenes

(51)

Las diferencias observadas cuando se trabaja con diferentes longitudes de v´ıdeo no son extremadamente significativas a nivel de clase, ya que, en general, las secuencias, considerándolas como eventos intestinales, son mas largas en el tiempo que los 60’ que es el tamaño máximo que se ha definido.

Lo que si que se puede apreciar es que a medida que disminuye el tama˜no de la secuencia aumentan notablemente las fluctuaciones entre clases mientras que cuando se aumenta el tama˜no se produce un aletargamiento, es decir, los cambios tardan mas en producirse y se crean tendencias que se alargan mas en el tiempo.

Este efecto se puede observar en las figuras 41, 42, 43, 44.

6.3 Segmentaci´

on

Para realizar la segmentación de un v´ıdeo, en primer lugar, se deberán de clasi-ficar todas las secuencias de imágenes de este, lo que a nivel práctico se traduce como; para cada imagen del v´ıdeo, suponiendo que se está trabajando con n frames, coge los (n/2) − 1 frames anteriores, el frame actual, y los (n/2) − 1 frames siguientes y etiqueta dicha secuencia (Fig. 38). Esta operación nos dará, para un v´ıdeo de i imágenes, un vector con i etiquetas, donde la etiqueta en la posición j es la etiqueta de la secuencia cuya imagen central es la imagen de indice j en el v´ıdeo.

Sin embargo existen dos problemas para esta aproximaci´on. En primer lugar est´a el tratamiento de bordes, y en segundo lugar, zonas en las que se producen muchas variaciones de clase en pocos frames.

6.3.1 Tratamiento de bordes

El problema de los bordes es un problema que surge al analizar secuencias de n frames consecutivos de un v´ıdeo de longitud m, ya que el numero m´aximo de

(52)

Fig. 38: El bloque inferior representa los resultados, el bloque superior repre-senta un v´ıdeo. En la figura se ilustra la secuencia de v´ıdeo que corresponde a un valor del vector de resultados

muestras diferentes que se pueden obtener son m − n. Existen varias soluciones para este problema. 1) Asumir que el v´ıdeo es circular y que el frame 0 y el frame m son consecutivos, 2) Asumir que los frames [−n/2, 0] son igual que el frame 0, y que los frames [m, m + n/2] son igual que el frame m, o directamente 3) Despreciar los resultados para las posiciones [0, n/2] y [m − n/2, m]. En esta aplicación se ha optado por esta última opción ya que en cualquier caso, el resultado obtenido para esas posiciones no contendr´ıa información real si se utilizaran cualquiera de las otras dos soluciones.

6.3.2 Tratamiento de ruido

A priori, el resultado que se espera en la evaluación de un v´ıdeo deber´ıa de ser una figura en la que los cambios fuesen sostenidos en el tiempo, sin embargo esto no sucede, debido en parte a que la clasificación no es del todo robusta, ya que, por un lado, existe mucho ruido en la información que se trata y por otro, que los eventos no tienen una duración constante en el tiempo.

(53)

g(x) = median

i=0

f (x + i) (1)

Sin embargo esta formula se ha variado ligeramente, ya que la idea es escoger para un punto la mediana de los segmentos que lo rodean, no de los segmentos posteriores, as´ı, la formula que aplica en este caso es la siguiente:

g(x) = median n 2 X i=−n 2 f (x + i) (2) Este filtro, que se ilustra en la figura 40 ofrece una representaci´on de lo que sucede en los segmentos eliminando una gran cantidad de ruido.

Fig. 40: El valor contenido en la caja superior es el valor que estar´a contenido en el indice 3 en el momento de aplicar la ventana a la secuencia

6.4 Resultados

En un breve resumen el proceso realizado a los v´ıdeos ha sido el siguiente 1) Extracción de caracter´ısticas de cada imagen, 2) construcción de secuencias de diferentes tamaños 3) Clasificación de las secuencias 4) Eliminación de ruido en los resultados.

(54)

Como se ha comentado a lo largo de esta secci´on este se trataba de un ejercicio exploratorio que trataba de responder la pregunta: ¿Tiene sentido intentar clasificar las secuencias de un v´ıdeo intestinal?

En las secuencias que se muestran a continuación se puede observar como, en efecto, la clasificación de las secuencias de v´ıdeo es algo que tiene mucho sentido. No tanto por haber sido capaces de identificar eventos intestinales concretos, sino porque se han conseguido identificar aquellos puntos en los que existe un cambio de patrón.

La figura 46 contrasta la gr´afica de clases con el mosaico correspondiente al segmento y se puede observar claramente como el concepto de clase de imagen se pierde para dar paso a un concepto extendido en el tiempo del contenido de una secuencia.

Fig. 41: Comparaci´on de la gr´afica de clases suavizada con el mosaico corre-spondiente.

En las figuras 41, 42, 43, 44 se muestran, en la parte de arriba las dos gráficas; en azul la clase correspondiente al frame enésimo, en verde la clase correspondiente al frame enésimo tras el suavizado. En la parte inferior se puede observar el mosaico correspondiente.

Para poner de manifiesto las diferencias entre el uso de diferentes longi-tudes, y corroborar las conclusiones previamente expuestas, todas las figuras corresponden al mismo segmento de v´ıdeo.

(55)

Fig. 43: Resultado del an´alisis de secuencias de 60 frames.

Fig. 44: Resultado del an´alisis de secuencias de 80 frames.

(56)

(57)

hora de almacenar la informaci´on, y en segundo lugar el tiempo de acceso. Este proceso recoge todos los v´ıdeos del repositorio y los guarda en formato MJPEG para mas adelante procesarlos mediante la red neuronal. Estos resul-tados se guardan en disco en diccionarios a los que luego se puede acceder de una forma directa para trabajar con la informaci´on.

En cuanto a la construcci´

on de secuencias

Para poner en práctica la agilidad con la que se accede a los v´ıdeos se ha elab-orado un proceso de creación de secuencias para tratar de extraer patrones a través de las caracter´ısticas de cada una de las imágenes extra´ıdas por la red neuronal.

Las secuencias se han construido con una cantidad preestablecida de im´agenes y se ha evaluado de forma visual la distribuci´on en un mapa de dos dimensiones mediante el uso del algoritmo t-SNE.

La conclusión obtenida tras la realización de la prueba anterior es que el tamaño de secuencia que ofrece una mejor representación de los datos es 80 frames, es decir 40 segundos de v´ıdeo intestinal.

En cuanto a la clasificaci´

on de secuencias

Se ha realizado una clasificación de secuencias utilizando el método k-Means, utilizando como set de datos secuencias aleatorias extra´ıdas de distintos v´ıdeos. Esto, tras visualizar la distribución de los resultados, de secuencias de difer-entes longitudes, en un mapa dos dimensional, da lugar a concluir que 1) Existen 6 clases diferenciadas de secuencias. 2) Estas clases ilustran con bastante pre-cisión el concepto de cambio de los sucesos intestinales.

(58)

8 Futuros trabajos

Interfaz de usuario para la extracci´

on de v´ıdeos

Una mejora a plantear para la extracción de v´ıdeos ser´ıa crear una interfaz que realizase este proceso de forma transparente al usuario, e incluso también integrarlo en la aplicación web para permitir al usuario utilizarlo de forma trans-parente.

Persistencia de los resultados

Actualmente los resultados obtenidos se guardan en el sistema de ficheros de forma independiente. Ser´ıa objeto de una posible mejora el hecho de persistir estos resultados en una base de datos de cara a asegurar la integridad de los mismos.

Estudio de los patrones detectados

En cuanto a las clases discriminadas en la clasificación de secuencias, ser´ıa objeto de estudio las implicaciones que tienen en la motilidad intestinal. Es decir, si existe alguna relación directa entre un paciente sano y el numero, o el orden de las secuencias detectadas, o si se pueden relacionar estas secuencias con sucesos médicamente relevantes.