martes, 29 de mayo de 2012

Discovering Knowledge from High-Dimensional Geographic Data: Integrating Visual and Computational Approaches

Ensayo por: Constanza Banguero Sánchez y Franklin Arles Bedoya Beltrá

La minería de datos y el KDD se han desarrollado ampliamente en áreas de negocios, bioinformática y minería de textos, pero se encuentra en una etapa reciente en la aplicación de la información geográfica debido a la complejidad y la variedad de las relaciones entre los datos y la espacialidad de los mismos, con lo cual se plantea un cambio en los métodos de minería de datos convencionales.  Se presentan dificultades al momento de dimensionar el tamaño de las características del espacio debido a la gran cantidad de variables a considerar, sus interrelaciones, dificultando el análisis de las misma por métodos analíticos y visuales tradicionales porque se pueden ocultar patrones y tendencias relevantes para el análisis. 

Además, se plantea la construcción de una hipótesis que agrupa las herramientas para determinar los patrones definidos por las características del espacio.
  Al construir el método de análisis este debe ser capaz de diferenciar entre los datos relevante y los irrelevantes para no tener patrones resultado engañosos o inútiles.  La elección de atributos con un enfoque manual es inútil debido a la cantidad y la complejidad de los datos y a la dificultad para encontrar los patrones inesperados; la minería de datos y el KDD tienen como fortaleza encontrar dichos patrones inesperados.  Se deben desarrollar herramientas para encontrar la información oculta en los datos con los que se cuenta. Se deben integrar los enfoques visual y computacional para descubrir patrones de datos geográficos complejos.


 

Problemas

Patrones espaciales multivariados

Los métodos de minería de datos presentan dificultades para procesar la gran cantidad de características geográficas relacionadas con el análisis espacial.

La eficiencia y la escalabilidad

La alta dimensionalida y /o la gran cantidad de datos sin una escala definida se convierten en un dificultad en cuanto a la eficiencia en función del tiempo para la generación de los resultados.
La comprensión y la interacción

Es muy importante la comprensión de los patrones resultantes del sistema KDD, ya que una mala interpretación y orientación de los resultados conlleva a alejarse del modelo aplicado.

Preguntas de investigación

La integración y la coordinación de los diferentes métodos en un entorno unificado: Para alcanzar la eficiencia y la eficacia en la exploración de grandes conjuntos de datos complejos se requiere conformar un marco de trabajo que permita integrar lo mejor de la capacidad de los humanos y de las máquinas, proveer soportes al ser humano facilitando la interactividad con el proceso del descubrimiento del conocimiento.
La exposición y la comprensión del comportamiento de las herramientas integradas:  Se plantean las preguntas relacionadas con la selección de las herramientas requeridas para plantear el problema, la presentación y visualización de la hipótesis y valorar la validez de los modelos.

El desarrollo de
métodos efectivos de selección de características sin supervisión
:  Normalmente los métodos supervisados son los más usados para la selección de características pero recientemente se está trabajando con métodos de clasificación de datos no supervisados que permiten crear subselecciones óptimas que producen selección de atributos pobres o buenos.

La integración de
la información espacial y no espacial
:  Debido a la dificultad de los métodos de minería de datos para procesar información espacial se cuestiona acerca de la manera de incluir la información espacial en la no espacial manejada por los métodos de minería de datos.

La detección de
patrones multivalentes de las diversas formas
:  Se plantean preguntas relacionadas con la metodología aplicada para la selección de los patrones en los que no se debe imponer un modelo a priori, buscar un modelo eficiente y que los resultados sean de fácil comprensión.

El desarrollo de
técnicas interactivas de
GeovisualizaciónSe plantea la manera de presentar los resultados obtenidos de una manera integral y de fácil comprensión, que facilite la interpretación, la visualización y el análisis de los resultados obtenidos.
Gestión de datos y el conocimiento:  Se busca que los modelos persistan en el tiempo de tal manera que la representación de los datos de acceso sea eficiente y eficaz, los mecanismos de almacenamiento y la representación. 

Descargue articulo completo aqui.

No hay comentarios:

Publicar un comentario

Muchas gracias por su comentario, será revisado y pronto se publicará.