Se intenta abordar la modelación dinámica de sistemas como una metodología para tratar problemas complejos en áreas como los sistemas de información geográfico, genómica y proteómica; permitiendo apoyar la toma de decisiones mediante la simulación de escenarios.
Novel algorithms for protein sequence analysis
Kai Ye
2008
Se diseñan dos métodos, basados en entropía y aprendizaje de máquina para identificar sitios específicos en una familia de proteinas. La información de entropía se usa para identificar los residuos que se conservan entre las subfamilas, pero que divergen en otras.
Minería de datos espaciales y Descubrimiento de conocimiento geográfico
Gustavo Adolfo Romero, Patricia Gómez Santamaría
Dado el actual apogeo de los sensores remotos y sistemas de posicionamiento global, GPS, la minería de datos ha encontrado una nueva área de aplicación donde los objetivos principales son la caracterización de perfiles poblacionales y la identificación de las posibles trayectorias futuras de los usuarios de dispositivos móviles, es decir, se identifican el movimiento de los objetos almacenando una secuencia de coordenadas espaciales asociadas a un instante en el tiempo y posteriomente al aplicarse técnicas de minería de datos es posible establecer patrones de comportamiento y estimar las posibles posiciones futuras de los objetos de estudio en forma de categorías donde la clasificación de las trayectorias puede ser desde la perspectiva global.
La minería de datos espaciales se constituye como una herramienta que provee la base teórica y metodológica para identificación de patrones sobre los datos, los cuales se convierten en una herramienta fundamental en el análisis de los datos y la realización de proyecciones para el soporte de decisiones, así, las características principales de los datos espaciales que realizan tareas comunes de soporte de minería de datos que permiten la predicción a partir de las clasificación y categorización. Los retos de la minería de datos se enfocan en el análisis de patrones complejos, procesamiento eficiente, y buscando algoritmos que den respuesta en tiempos cada vez más cortos y optimizando la visualización de los resultados.
Es un hecho que en la actualidad, gracias a los avances tecnológicos en diferentes ramas, es posible colectar y almacenar mucha más cantidad de datos que confluyen de diversas fuentes y que muchas veces se desconoce la calidad de dicha información y/o de las metodologías usadas para la obtención de los datos, así como la resolución temporal. Adicionalmente, la investigación cada vez requiere de mayor precisión y detalle lo que hace, particularmente en un entorno geográfico, aumentar la resolución de la adquisición de datos. Esto genera que las empresas de diferentes sectores se encuentren con un repositorio de datos que no están analizando debidamente o extrayendo el gran potencial de información y que les pueda dar lineamientos con un mejor entendimiento del comportamiento de las variables de interés, que finalmente les servirá como indicadores para la toma de decisiones adecuadas o realizar una buena planificación y manejo de cualquier actividad o entorno.
El principal problema en las entidades y empresas podría estar en el desconocimiento y en la falta de interés en el desarrollo de estrategias que apunten a realizar minería de datos y al descubrimiento de conocimiento geográfico, debido a que en algunas a pesar de tener sus sistemas de información andando como el de personal, el financiero, el de compras, apenas se está interiorizando el concepto de sistemas de información geográfica con sus manejos y aplicaciones, con sus métodos de análisis espaciales tradicionales, incluso es común la adquisición de modelos realizados para unas condiciones totalmente distintas a las que las entidades requieren, como el caso de la adquisición de la CVC del MIKE, un modelo univariado con el cual se puede modelar las inundaciones por desbordamiento de un río tipo con características de valle aluvial, y que sólo tiene en cuenta perfiles topobatimétricos, cuando en realidad el río cauca en su recientes pasos con los fenómenos de inundación ha afectado muchas áreas por la infiltración limitada del suelo y por aumentos de los niveles freáticos.
Otra limitación en la aplicación activa de la minería de datos y del descubrimiento de conocimiento es el gran trabajo que se debe realizar, el cual incluye la selección y arreglo de los datos como la homologación, estructuración, limpieza, analizarlos estadísticamente, filtrarlos, transformarlos, todo con los conceptos o conocimientos a priori o de los expertos en cada área, la aplicación de análisis con algoritmos computacionales es quizás el eslabón perdido dentro de las organizaciones y que no necesariamente es del manejo de los expertos y por lo tanto es la gran barrera a romper, lo cual incluye el trabajo en equipo de los diferentes enfoques para su visualización, interpretación y evaluación de resultados.
Actualmente existen una variedad de algoritmos implementados en software que permiten realizar clasificaciones automáticas de las imágenes satelitales, que necesitan necesariamente del conocimiento del experto para ser refinadas, ayudándole a este a mejorar su trabajo y hacerlo más fácil, eficiente y de mejor calidad, mediante este procedimiento se realiza un entrenamiento de la máquina y esta puede mejorar las clasificaciones; también se puede realizar la clasificación supervisada mediante el ingreso de datos geoposicionados conocidos de algunas cobertura vegetales, a partir de los cuales se identifica ese tipo de cobertura en toda la imagen. Convirtiendo está en una herramienta potente que genera información de cobertura, y posiblemente después se convertirá en conocimiento, puesto que en estas coberturas existen unos patrones de manejo que influyen en la erosión, salinidad y posibles fuentes de contaminación.
Existen varios enfoques y estrategias para realizar minería de datos las cuales aplican algoritmos basados por ejemplo en las reglas de asociación espacial, las cuales describen la implicación de características espaciales del objetivo de análisis con respecto a las características de otros objetos, siendo éstos, únicos o de agrupación espacial. En las bases de datos espaciales las reglas de asociación son de la forma Xà Y, consecuente, son conjuntos de predicados, los cuales generalmente incluyen relaciones topológicas, de orientación espacial y de distancia. Las reglas de asociación hacen referencia a objetos que se encuentran en la misma localización espacial y significativamente cerca, lo cual puede generar una correlación con patrones de localización espacial como por ejemplo alta evapotranspiración, en áreas con cultivo de caña -> salinidad; o ganadería en altas pendientes -> erosión.
La minería de datos, el descubrimiento de conocimiento, la aplicación de algoritmos adecuados y la geovisualización cobra una alta importancia para integrar información que hasta ahora no ha sido posible implementar en los tradicionales SIG, los cuales hasta ahora sólo despliegan vistas en 2D. Tal es caso de la información de agua subterránea y el cálculo adecuado de los volúmenes y su comportamiento en el tiempo tanto en cantidad como en calidad y en integrar esta información con los perfiles de suelos y los perfiles estratigráficos de los pozos de extracción de agua para modelar el comportamiento de un complejo de humedales y ríos que interactúan con el agua subterránea y que por consiguiente con las altas y constantes precipitaciones afecta finalmente áreas con cultivos y genera peligros potenciales para la población aledaña.
Ensayo por: Constanza Banguero Sánchez y Franklin Arles Bedoya Beltrá
La minería de datos y el KDD se han desarrollado ampliamente en áreas de negocios, bioinformática y minería de textos, pero se encuentra en una etapa reciente en la aplicación de la información geográfica debido a la complejidad y la variedad de las relaciones entre los datos y la espacialidad de los mismos, con lo cual se plantea un cambio en los métodos de minería de datos convencionales. Se presentan dificultades al momento de dimensionar el tamaño de las características del espacio debido a la gran cantidad de variables a considerar, sus interrelaciones, dificultando el análisis de las misma por métodos analíticos y visuales tradicionales porque se pueden ocultar patrones y tendencias relevantes para el análisis.
Además, se plantea la construcción de una hipótesis que agrupa las herramientas para determinar los patrones definidos por las características del espacio. Al construir el método de análisis este debe ser capaz de diferenciar entre los datos relevante y los irrelevantes para no tener patrones resultado engañosos o inútiles. La elección de atributos con un enfoque manual es inútil debido a la cantidad y la complejidad de los datos y a la dificultad para encontrar los patrones inesperados; la minería de datos y el KDD tienen como fortaleza encontrar dichos patrones inesperados. Se deben desarrollar herramientas para encontrar la información oculta en los datos con los que se cuenta. Se deben integrar los enfoques visualy computacional para descubrir patronesde datos geográficos complejos.
Problemas Patrones espaciales multivariados
Los métodos de minería de datos presentan dificultades para procesar la gran cantidad de características geográficas relacionadas con el análisis espacial.
La eficiencia y laescalabilidad
La alta dimensionalida y /o la gran cantidad de datos sin una escala definida se convierten en un dificultad en cuanto a la eficiencia en función del tiempo para la generación de los resultados.
La comprensión y lainteracción
Es muy importante la comprensión de los patrones resultantes del sistema KDD, ya que una mala interpretación y orientación de los resultados conlleva a alejarse del modelo aplicado.
Preguntas de investigación La integracióny la coordinación delos diferentes métodosen un entorno unificado: Para alcanzar la eficiencia y la eficacia en la exploración de grandes conjuntos de datos complejos se requiere conformar un marco de trabajo que permita integrar lo mejor de la capacidad de los humanos y de las máquinas, proveer soportes al ser humano facilitando la interactividad con el proceso del descubrimiento del conocimiento.
La exposicióny la comprensión delcomportamiento de las herramientasintegradas: Se plantean las preguntas relacionadas con la selección de las herramientas requeridas para plantear el problema, la presentación y visualización de la hipótesis y valorar la validez de los modelos.
El desarrollo demétodos efectivos deselección de característicassin supervisión: Normalmente los métodos supervisados son los más usados para la selección de características pero recientemente se está trabajando con métodos de clasificación de datos no supervisados que permiten crear subselecciones óptimas que producen selección de atributos pobres o buenos.
La integración dela información espacialy no espacial: Debido a la dificultad de los métodos de minería de datos para procesar información espacial se cuestiona acerca de la manera de incluir la información espacial en la no espacial manejada por los métodos de minería de datos. La detección depatronesmultivalentesde las diversas formas: Se plantean preguntas relacionadas con la metodología aplicada para la selección de los patrones en los que no se debe imponer un modelo a priori, buscar un modelo eficiente y que los resultados sean de fácil comprensión.
El desarrollo detécnicas interactivas de Geovisualización: Se plantea la manera de presentar los resultados obtenidos de una manera integral y de fácil comprensión, que facilite la interpretación, la visualización y el análisis de los resultados obtenidos. Gestión de datosy el conocimiento: Se busca que los modelos persistan en el tiempo de tal manera que la representación de los datos de acceso sea eficiente y eficaz, los mecanismos de almacenamiento y la representación.
Minería de datos espaciales y Descubrimiento de conocimiento geográfico
Autores de reseña: Gustavo Adolfo Romero and Patricia Gómez Santamaría.
Dado el actual apogeo de los sensores remotos y sistemas de posicionamiento global, GPS, la minería de datos ha encontrado una nueva área de aplicación donde los objetivos principales son la caracterización de perfiles poblacionales y la identificación de las posibles trayectorias futuras de los usuarios de dispositivos móviles, es decir, se identifican el movimiento de los objetos almacenando una secuencia de coordenadas espaciales asociadas a un instante en el tiempo y posteriomente al aplicarse técnicas de minería de datos es posible establecer patrones de comportamiento y estimar las posibles posiciones futuras de los objetos de estudio en forma de categorías donde la clasificación de las trayectorias puede ser desde la perspectiva global.
La minería de datos espaciales se constituye como una herramienta que provee la base teórica y metodológica para identificación de patrones sobre los datos, los cuales se convierten en una herramienta fundamental en el análisis de los datos y la realización de proyecciones para el soporte de decisiones, así, las características principales de los datos espaciales que realizan tareas comunes de soporte de minería de datos que permiten la predicción a partir de las clasificación y categorización. Los retos de la minería de datos se enfocan en el análisis de patrones complejos, procesamiento eficiente, y buscando algoritmos que den respuesta en tiempos cada vez más cortos y optimizando la visualización de los resultados.
Es un hecho que en la actualidad, gracias a los avances tecnológicos en diferentes ramas, es posible colectar y almacenar mucha más cantidad de datos que confluyen de diversas fuentes y que muchas veces se desconoce la calidad de dicha información y/o de las metodologías usadas para la obtención de los datos, así como la resolución temporal. Adicionalmente, la investigación cada vez requiere de mayor precisión y detalle lo que hace, particularmente en un entorno geográfico, aumentar la resolución de la adquisición de datos. Esto genera que las empresas de diferentes sectores se encuentren con un repositorio de datos que no están analizando debidamente o extrayendo el gran potencial de información y que les pueda dar lineamientos con un mejor entendimiento del comportamiento de las variables de interés, que finalmente les servirá como indicadores para la toma de decisiones adecuadas o realizar una buena planificación y manejo de cualquier actividad o entorno.
El principal problema en las entidades y empresas podría estar en el desconocimiento y en la falta de interés en el desarrollo de estrategias que apunten a realizar minería de datos y al descubrimiento de conocimiento geográfico, debido a que en algunas a pesar de tener sus sistemas de información andando como el de personal, el financiero, el de compras, apenas se está interiorizando el concepto de sistemas de información geográfica con sus manejos y aplicaciones, con sus métodos de análisis espaciales tradicionales, incluso es común la adquisición de modelos realizados para unas condiciones totalmente distintas a las que las entidades requieren, como el caso de la adquisición de la CVC del MIKE, un modelo univariado con el cual se puede modelar las inundaciones por desbordamiento de un río tipo con características de valle aluvial, y que sólo tiene en cuenta perfiles topobatimétricos, cuando en realidad el río cauca en su recientes pasos con los fenómenos de inundación ha afectado muchas áreas por la infiltración limitada del suelo y por aumentos de los niveles freáticos.
Otra limitación en la aplicación activa de la minería de datos y del descubrimiento de conocimiento es el gran trabajo que se debe realizar, el cual incluye la selección y arreglo de los datos como la homologación, estructuración, limpieza, analizarlos estadísticamente, filtrarlos, transformarlos, todo con los conceptos o conocimientos a priori o de los expertos en cada área, la aplicación de análisis con algoritmos computacionales es quizás el eslabón perdido dentro de las organizaciones y que no necesariamente es del manejo de los expertos y por lo tanto es la gran barrera a romper, lo cual incluye el trabajo en equipo de los diferentes enfoques para su visualización, interpretación y evaluación de resultados.
Actualmente existen una variedad de algoritmos implementados en software que permiten realizar clasificaciones automáticas de las imágenes satelitales, que necesitan necesariamente del conocimiento del experto para ser refinadas, ayudándole a este a mejorar su trabajo y hacerlo más fácil, eficiente y de mejor calidad, mediante este procedimiento se realiza un entrenamiento de la máquina y esta puede mejorar las clasificaciones; también se puede realizar la clasificación supervisada mediante el ingreso de datos geoposicionados conocidos de algunas cobertura vegetales, a partir de los cuales se identifica ese tipo de cobertura en toda la imagen. Convirtiendo está en una herramienta potente que genera información de cobertura, y posiblemente después se convertirá en conocimiento, puesto que en estas coberturas existen unos patrones de manejo que influyen en la erosión, salinidad y posibles fuentes de contaminación.
Existen varios enfoques y estrategias para realizar minería de datos las cuales aplican algoritmos basados por ejemplo en las reglas de asociación espacial, las cuales describen la implicación de características espaciales del objetivo de análisis con respecto a las características de otros objetos, siendo éstos, únicos o de agrupación espacial. En las bases de datos espaciales las reglas de asociación son de la forma X->Y, consecuente, son conjuntos de predicados, los cuales generalmente incluyen relaciones topológicas, de orientación espacial y de distancia. Las reglas de asociación hacen referencia a objetos que se encuentran en la misma localización espacial y significativamente cerca, lo cual puede generar una correlación con patrones de localización espacial como por ejemplo alta evapotranspiración, en áreas con cultivo de caña --> salinidad; o ganadería en altas pendientes de erosión.
La minería de datos, el descubrimiento de conocimiento, la aplicación de algoritmos adecuados y la geovisualización cobra una alta importancia para integrar información que hasta ahora no ha sido posible implementar en los tradicionales SIG, los cuales hasta ahora sólo despliegan vistas en 2D. Tal es caso de la información de agua subterránea y el cálculo adecuado de los volúmenes y su comportamiento en el tiempo tanto en cantidad como en calidad y en integrar esta información con los perfiles de suelos y los perfiles estratigráficos de los pozos de extracción de agua para modelar el comportamiento de un complejo de humedales y ríos que interactúan con el agua subterránea y que por consiguiente con las altas y constantes precipitaciones afecta finalmente áreas con cultivos y genera peligros potenciales para la población aledaña.