-->

13 marzo 2011

Geostatistical Analyst. Análisis geoestadístico con ArcGIS parte 3

Con Geostatistical Analyst es posible explorar la variabilidad de datos, examinar tendencias globales e investigar la autocorrelación y la correlación entre los datos, de igual forma se pueden crear predicciones y calcular errores de predicciones.
 
Lo primero que se tiene que hacer para iniciar un análisis geoestadístico con Arcgis es el análisis exploratorio de los datos, lo cual hemos visto en dos artículos anteriores y por último el análisis estructural de los datos.


1. Análisis Exploratorio de los datos (ver artículo)
Paso 1

En este caso utilizaré, el shape de puntos donde se tiene datos del monitoreo de niveles del acuífero del golfo de Urabá, el cual se denomina Niveles.shp.

Paso 2
Una vez creado o agregado el shape en Arcmap, damos clic en Geostatistical Analyst, seguido de Explore Data y finalmente en Histogram, tal como se muestra en la figura. 

Aparece la siguiente ventana…

En la parte inferior de la ventana,

Bars: Permite elegir el número de intervalos, la herramienta automáticamente calcula la longitud de cada intervalo.

Transformation: Permite realizar una transformación logarítmica a los datos en caso de que estos no sigan una distribución normal (tal como fue explicado aquí).

Layer: Aquí aparece el nombre del Shape, el cual es Niveles, cuando hay varios shpe agregados en Arcmap la herramienta elige el primero de la lista.

Attribute: Aquí aparece por defecto el primer campo que tenemos en la tabla de atributos de nuestro shape… en este caso es el campo pozos. Automáticamente la herramienta calcula los parámetros geoestadísticos que se muestran en la parte superior.

Paso 3
Lo que sigue es seleccionar el atributo con el cual queremos hacer el análisis geoestadístico, en este caso es el nivel piezométrico, para ello damos clic en la pestaña que está debajo del Attribute y seleccionamos el campo “NP” (nivel piezométrico).

Se observa que inmediatamente cambia la grafica y recalcula los valores de los parámetros estadísticos mostrados en la parte superior, los cuales son los siguientes:

Count (numero de datos): 53
Min (dato menor): 2.0076
Max (dato mayor): 35.319
Mean (Media): 9.3776
Std Dev (Desviación estándar): 8.0421
Skewness (Coeficiente de sesgo o asimetría): 1.4773
Kurtosis (curtosis): 4.4709
Median (Mediana): 5.69

Aquí, la moda se calcula como la marca de clase del intervalo con mayor frecuencia…
Moda = (0.2+0.53)/2 = 0.365.

El coeficiente de variación se calcula como: CV=S/media*100
CV=8.0421/9.3776*100 = 85.7%

A estos parámetros le aplicamos las condiciones necesarias para verificar si los datos siguen la distribución normal. Vemos que la media, la moda y la mediana son diferentes y su diferencia es mayor a uno, el coeficiente de sesgo es mayor a 1, por lo cual es necesario realizar una transformación de los datos, de acuerdo a la literatura y lo hablado anteriormente se recomienda una transformación logarítmica…pero no los preocupemos estos lo hace ArcGis, simplemente en la pestaña Transformation seleccionamos “Log”. En la pestaña Bars colocamos 8 intervalos. El resultado es el siguiente.

Observamos nuevamente los parámetros…

Count (numero de datos): 53
Min (dato menor): 0.69694
Max (dato mayor): 3.5644
Mean (Media): 1.9248
Std Dev (Desviación estándar): 0.78698
Skewness (Coeficiente de sesgo o asimetría): 0.33899
Kurtosis (curtosis): 2.0591
Median (Mediana): 1.7697

El coeficiente de variación se calcula como: CV=S/media*100
CV=0.78698/1.9248*100 = 40.88%

El coeficiente de variación mejoró y es igual a 40.88%, por lo cual no hay problema con los valores extremos de los datos.

De lo anterior se concluye que la media y la mediana son similares, su diferencia es menor a 1 y el coeficiente de sesgo está entre 0 y 0.5, por lo cual la distribución de los datos se acepta como normal…se sigue con el análisis geoestadístico.
                                                                                            
Paso 4
Después de haber analizado los parámetros estadísticos y concluir que la distribución de los datos se puede tomar como normal, cerramos la ventana del Histogram y volvemos a dar clic en Geostatistical Analyst, seguido de Explore Data y finalmente en Trend Analysis, tal como se muestra en la figura. 

Se abre la siguiente ventana…

Esta ventana nos ayuda a ver qué tendencia siguen los datos para que luego en el análisis estrutural le indiquemos a la herramienta que sea removida. En Graph options, damos clic en Projected Data, Sticks, Input Data Points para que desaparezcan de la gráfica… el resultado debe ser el siguiente.

Es importante analizar si los datos manifiestan tendencias direccionales que permitan establecer correlaciones en esas direcciones, y formular modelos de comportamiento. La tendencia más fuerte se tendrá sobre aquella dirección en la que la línea de tendencia es más gruesa; para nuestro ejemplo se ve claramente una fuerte tendencia en la dirección este-oeste (línea verde) y una débil tendencia en la dirección norte-sur (línea azul).

Con la barra de desplazamiento resaltada en rojo en la figura anterior se empiezan a desplazar las líneas de tendencias (verde y azul de la misma figura)… y se observa si estas siguen una línea recta, en caso tal la tendencia es lineal; una curva con una concavidad, la tendencia es cuadrática o si es una línea con más de una concavidad, la tendencia será de orden 3.

Como conclusión del análisis exploratorio y que se debe tener en cuenta durante la realización del análisis estructural de los datos, tenemos:
  • Los datos originales no siguen una distribución normal, por lo tanto se aplica una transformación logarítmica.
  • Es necesario remover una tendencia de segundo orden

2. Análisis estructural de los datos
Paso 5
Una vez identificada la tendencia de los datos, el siguiente paso es el análisis estructural y realización del modelo geoestadístico con los datos…para ello damos clic en Geostatistical Analyst, seguido de Geostatistical Winzard, aparece la una  ventana donde debemos rellanar la siguiente información.

Medthod: Se debe seleccionar el método con el cual se quieren analizar los datos, en este caso es Kriging
Input data: el shape al cual se le debe aplicar el análisis geoestadístico en este caso es Niveles.
Attibute: El campo con el que se quiere realizar el análisis geoestadístico. En esta caso es el nivel piezométrico (NP).


Damos clic en el botó Next>. Aparece la siguiente ventana, donde rellenamos la siguiente información. 
  • En Geostatistical methods, se selecciona Ordinary Kriging-Prediction Map.
  • En Transformation, se selecciona Log, pues ya habíamos concluido que es necesario realizar transformación logarítmica.
  • En Order of trend removal, se selecciona la opción Second, pues habíamos visto que los datos siguen una tendencia de segundo orden.
Damos clic en Next>, aparece una ventana  que permite concluir si los datos presentan anisotropía direccional o no la presentan. Si en la grafica aparece un círculo, no hay anisotropía direccional y si aparece otra cosa como la de la figura, se concluye que existe anisotropía direccional la cual se debe tener presente, ya que en la ventana siguiente se le deberá indicar a la herramienta este parámetro.

Damos clic en Next>, aparece la siguiente ventana.

En la ventana anterior rellenamos la siguiente información

1. Model: 1. Aquí debemos elegir el modelo geoestadístico que deseemos usar para modelar los datos; para el caso del ejemplo, elegiremos el modelo Spherical.

2. En el paso anterior concluimos que hay anisotropía estructural, por lo tanto, debemos seleccionar Anisotropy.

3. Damos clic en Show search Direction, se habilitarán inmediatamente las opciones de más abajo, las cuales son Angle direction y Bandwidth (lags).

En la grafica anterior vemos que fueron habilitadas Angle direction y Bandwidth (lags), para seguir se procede de la siguiente forma.

Angle direction: Debemos cambiar el Angulo hasta que las líneas que se muestran a la izquierda de la figura coincidan con la dirección de la elipse en su parte superior.

Bandwidth (lags): una vez realizado el paso anterior, los puntos o parte inferior de las líneas deben cortar a la elipse, para ello se aumenta o disminuye el valor de Bandwidth.

…lo dicho anteriormente se resumen en la siguiente imagen.


Después de dar clic en Next>, se muestra la siguiente ventana.

Volvemos a dar clic en Next>, en la siguiente ventana se muestra:
  • Un recalculo de los datos en comparación con los valores medidos para verificar obtenido.
  • Cálculo de los errores:
        Root-Mean-Square: 3.774
        Average Standard Error: 4.361
        Mean Standardized: -0.04804
        Root-Mean-Square Standardized: 0.9609
  • Un gráfico de comparación de datos medidos y datos calculados, en la que se puede ver que los datos que más se alejan de la línea, son los que mayores errores presentan en su predicción.
 
Damos clic en finish y aparece un resumen del método utilizado.

Damos clic en Ok y aparece el mapa de predicción de niveles piezométrico a partir del método geoestadístico Kriging esférico.
 
Pero aun no se termina …la ventajas de los métodos geoestadísticos es que nos permite realizar un mapa de errores. Para ello en el panel del navegador,  damos clic derecho sobre el mapa creado y elegimos la opción Create Prediction Estándar error Map.
 
El resultado es el siguiente.
 
En la figura anterior observamos que el máximo error es del 58.16%, el cual es muy alto. La confiabilidad del modelo se calcula como 100 menos el error máximo, para el ejemplo: confiabilidad = 100-58.16 = 41.84%. Para aceptar un modelo geoestadístico es necesario tener una confiabilidad superior al 90%, por lo tanto se concluye que es necesario mejorar la densidad de las medidas.
 
En la gráfica también se observa que los errores mayores en la predicción se producen donde existe menos información. Para el caso del monitoreo de niveles de un acuífero esto es indicativo que en estos sitios se deben perforar piezómetros o pozos de monitoreo con el fin de optimizar la red existente.
 
Para seleccionar el modelo que mejor modela nuestros datos, es necesario aplicarles cada uno de ellos y escoger el que presente menor Root-Mean-Square, menor Average Standard Error, Root-Mean-Square Standardized más cercano a uno y mayor porcentaje de confiabilidad.
 
Como resumen del modelo aplicado tenemos lo siguiente:


Parámetro
Valor
Root-Mean-Square
3.774
Average Standard Error
4.361
Root-Mean-Square Standardized
0.9609
Confiabilidad
41.84



Existen otros conceptos que son muy importantes, pero de los cuales no fue posible mencionar en este artículo: efecto pepita, efecto pepita puro, discontinuidad en el origen, meseta, anisotropía estructural, anisotropía direccional, variograma y partial sill, entre otros. Para profundizar en este tema recomiendo revisar la siguiente bibliografía.

Webster, Richard. Oliver Margaret. 2001. Geostatistics for environmental scientists. Great Britain. John Wiley & Sons Inc.

Sampe Javier y Jesús carrera. 1990. Geoestadistica, aplicaciones a la hidrogeología subterránea. Centro Internacional de métodos nuéricos en Ingeniería. Barcelona



44 comentarios :

  1. muy interesante y claro lo descrito aquí, conozco muy poco de la GeoEstadistica como módulo del ArcGIS, aun no lo he explotado debidamente (soy usuario de esa herramienta hace mucho), lo que, gracias a tu artículo, me lleva a investigar y fortalecer capacidades propias partiendo de la base de información que amablemente compartes y que en verdad agradezco. Me gustaría utilizar GeoEstadistica para estimaciones de patrimonio de inmuebles de una localidad.
    Saludos cordiales desde Perú,

    ResponderEliminar
  2. Gracias Juan Carlos..

    Comparte Agua y Sig con quien quieras y esté interesado.

    ResponderEliminar
  3. Muy práctico toda la trilogia, felicitaciones, me ha ayudado a tener una idea más clara acerca de este tema, yo soy nueva en este ámbito y justo ahora estoy haciendo mi tesis y esto me ha ayudado a despejar algunas dudas. gracias....
    Saludos desde Ecuador

    ResponderEliminar
  4. Hola Andrea, que bueno que te haya servido este tema... Puedes compartirlo con quien quieras. Aprovecho y cuento a Todos que el Surfer también es una muy buena herramienta para la geoestadistica... muy pronto estaré publicando algunas cosas al respecto

    ResponderEliminar
  5. Excelente artículo. Muchísimas gracias :o)

    ResponderEliminar
  6. Excelente este blog! Somos un grupo de geologos de Córdoba, Argentina. Particularmente nos interesa la aplicación de la Geoestadística a la distribución de volcanes y el análisis de patrones de puntos (point pattern analysis), me podrías recomendar alguna herramienta particular de Arc?
    Muchas Gracias

    ResponderEliminar
  7. Hola!, tambien podías utilizar Surfer.. en el indice de geoestadistica tambien puede encontrar uos tutoriales sobre este programa

    ResponderEliminar
  8. Hola!! me acabo de topar con este blog y quedé encantada. Esta información me será de gran utilidad en un proyecto de estudios ambientales q vengo adelantando. Muchas gracias por compartir estos artículos.

    ResponderEliminar
  9. hola, muchas gracias por el articulo, sin duda lo que estaba buscando, solamente una pregunta, ¿existe alguna forma de cambiar la escala del semivariograma a metros? lo pregunto por que para mi es necesario mostrar el analisis estructural y la medida que se utiliza en el arcgis no es muy clara, muchas gracias.

    ResponderEliminar
  10. Soy Frank, y te felicito Maravilloso articulo, muchas gracias, me ha ayudado bastante a tener una idea de este modulo de Arcgis. un saludo

    ResponderEliminar
  11. Hola

    Muy interesante tu trilogia
    Me aclaro muchos temas, especialmente la exploracion de los datos.

    Soy investigador asociado al Laboratorio de Planeamiento, Modelamiento y Ordenamiento Territorial en la Universidad Nacional Agraria La Molina.

    Saludos desde el Peru

    Fernando

    ResponderEliminar
  12. Muy buen aporte, desconocía de este modulo del ArcGis. Saludos desde Perú

    ResponderEliminar
  13. muy bueno el documento pero sera que puedo encontrar este doc en pdf para poder descargarlo o sera que solo lo encuentro en linea

    ResponderEliminar
    Respuestas
    1. Hola anónimo!, tu puedes copiar y pegar todo en contenido en word fácilmente

      Eliminar
  14. Hola, tengo una duda y un comentario. Tengo mi tabla en excel y lo que voy analizar es la distribucion de F en un acuífero. Analizó los datos y obtengo que necesito realizar una transformacion (ln) pero al momento de hacerlo, obtengo valores negativos, ya que tengo valores inferiores a 1. Entonces procedí cambiando las unidades de concentracion de F (de mg/L a ug/L), y de esta manera logro obtener los valores perfectamente (aplicando ln). Al momento de analizar estos mismos datos en ArcGIS y cuando quiero iniciar obteniendo el histograma, resulta que no puedo hacer la transformacion, y el shapefile que creé lo hice teniendo los valores tanto en mg como en ug, pero no me aparece la opcion de transformar a ln, entonces lo que hice fue que en excel hice la transformacion, y prosegui a analizar los datos con el ln aplicado. Pero esto esta bien hecho?. Porque algunos datos no me coinciden con mis calculos hechos en excel. Espero darme a entender y ojala tenga una respuesta. Gracias.

    ResponderEliminar
    Respuestas
    1. Hola Ingrid, cuando en ArcGis no puedes transformar los datos se debe a que tienes un cero o un valor negativo, por ello el logaritmo quizá no te aparezca.

      debes buscar en tus datos el problema y volver a utilizar la herramienta

      Eliminar
  15. OLVIDE EL COMENTARIO, PERO ME PARECE UN "TUTORIAL" EXCELENTE Y DE MUCHA UTILIDAD. MUCHAS FELICIDADES PEDRO

    ResponderEliminar
  16. Hola! excelente trabajo!.
    Soy estudiante de ingenieria agronomica y estoy interesada en el uso de esta herramienta para estudios de suelos, variables fisicas y quimicas y en últimas correlacionarlas con valores de producción en campo. Sabes como se comporta esta herramienta en la elaboración de mapas de rendimientos??

    ResponderEliminar
    Respuestas
    1. Hola!, me alegra que sirva el blog, bueno lo que tu me comentas lo he aplicado pero en aguas subterráneas con excelentes resultados...creo también se comportaría bien en suelos... si lo deseas me envías datos para mirar y publicar algo... saludos

      Eliminar
  17. Hola, gracias por responder tan pronto. Tengo una duda en este momento, tengo un departamento dentro de este, tengo todas los municipios, quiero saber como extraer solo el departamento sin los municipios, osea el croquis del departamento. Gracias por tu ayuda...ah! tengo arcgis10 :)

    ResponderEliminar
  18. Buenas tardes, excelente pagina me esta ayudando mucho a desarrollar mi tesis.
    Ahora me ha surgido una duda con este procedimiento, dado que al analizar los datos, el resultado de "root mean square standardized" me da mayor a 1 y en algunos casos mayor a 3.
    Mi duda, en este caso, es por la debilidad de los datos, o puede ser por un ajuste del modelo.
    He probado con modelo Spherical, Circular y todos, pero no consigo bajar de 1 el "root mean square standardized".

    Alguna idea de como ajustar el modelo para conseguir valores aceptables.

    ResponderEliminar
  19. pueden por favor subir los datos para poder practicarlo mejor?

    ResponderEliminar
  20. Para anonimo: Yo segui el tutorial, para hacerlo practico, tu copias la tabla que tiene todos los datos de la primera tabla que estan en "Análisis geoestadístico con ArcGIS parte 2. Análisis exploratorio de los datos".
    La pegas en excel, le haces tratamiento para eliminar los puntos (de las coordenadas), espacios en blanco y conversion de celulas en formato numerico. luego guardas el documento como archivo *.xls ou *.cvs y desde una herramienta del Arcgis "Make XY Event Layer" creas un shapefile de puntos, luego puedes seguir paso a paso la trilogia.

    Para Peter:

    Excelente Tutorial, estuve buscando en ingles, francés y lo mejor fue este en español. de paso un repaso a la estadistica.

    Por otra parte, seria interesante Continuar una 4 entrega, por ejemplo con un analisis co-kriging, digamos introducir como seguanda fuente de datos la altura sobre el nivel del mar, o la geologia. Buena suerte.

    ResponderEliminar
    Respuestas
    1. Hola Miguel un gusto saludarte, puedes enviarme los datos para hacer el ejercicio? el shapefile niveles? gracias!!

      Eliminar
  21. Hola,

    Tengo una pregunta, en mi shapefile tengo varios campos de atributos, pero a la hora de hacer un histograma no me salen en atributes porque?, en atributes solo me salen los campos de X y Y, y los demás campos no parecen.

    Gracias.

    ResponderEliminar
  22. Cordial saludo;

    Tutorial muy útil y muy bien explicado. Solo una inquietud, si por algún motivo, cuando se crea el mapa de errores, los rangos exceden el valor de 100 % (rangos entre 300 y 1500), existe otra manera para encontrar la confiabilidad del modelo?

    Gracias por su tiempo.

    ResponderEliminar
    Respuestas
    1. Hola Sebas, si el error es muy grande es porque tienes pocos datos o estan concentrados en algunos sitios, en las zona donde es mayor el error se deberían tener estaciones de medición de la variable

      Eliminar
    2. Muchas gracias. Es cierto tengo información pluviométrica de 6 estaciones. Y necesito saber que herramienta representa mejor la distribución espacial de los datos (spline, IDW, kriging) y también necesito saber el posible error que cada herramienta realice. Que me recomienda hacer? He probado todos los modelos del geostatistical wizard y los valores no cambian. Utilizo cualquiera o cual?

      Estoy enormemente agradecido...

      Eliminar
    3. Con el número de estaciones que tienes no es posible aplicar geoestadistica, sería bueno que utilizaras estaciones por fuera de tu región. Los metodos como Spline o IDW son métodos determínisticos con los cuales no es posible calcular el error.

      Con tan pocos datos no te recomiendo utilizar geoestadistica, si puedes conseguir datos de otras estaciones sería muy bueno o utiliza kriging con deriva externa (yo no lo manejo), si tienes alguna imagen de radar la puedes agregar para los calculos. Lo otro es que utilices el metodo tradicional de poligonos de tiessen.

      saludos

      Eliminar
    4. Señor, su ayuda ha sido imprescindible. Le agradezco de manera monumental. Yo sé que su conocimiento es valido para varias investigaciones y para lo que yo estoy siguiendo, permítame hago cita de su conocimiento.

      Eliminar
    5. No se Sebas, podrías solo colocar el artículo del blog que consultaste, siguiendo las normas de bibliografía para internet

      Eliminar
  23. Hola buenas, tardes yo realice los pasos para crear un shapefile de puntos a partir de coordenadas planas y cuando quiero utilizar Geostatistical Analyst me aparece en blanco y no lo puedo utilizar. Me podrías explicar porque aparece en blanco.

    Muchas gracias.

    ResponderEliminar
  24. Me encuentro realizando el paso 3 del histograma y no me permite realizar ninguna transformacion, continua en None y no da opciones de ningun tipo. Agradezco la ayuda

    ResponderEliminar
    Respuestas
    1. Hola, supongo que ya solucionaste tu problema, pero por las dudas te cuento que si tienes 0 (ceros) en tu serie no vas a poder hacer logaritmo ya que sería un error matemático.
      Anahí

      Eliminar
  25. Hola!! me pueden enviar por favor los datos de ejemplo? Niveles.shp? gracias!!!

    ResponderEliminar
  26. Hola!!!...al efectuar la transformación logarítmica de mis datos...los valores de media y mediana me salen negativos.....como debo proceder en este caso?......muchas gracias...si pueden ayudarme .....saludos.....Romina

    ResponderEliminar
  27. información precisa y clara.....

    ResponderEliminar
  28. Hola, me parece que hay un error en la interpretación del dato del mapa de Error Estandar, ya que esri indica que: "A simple rule of thumb is that 95 percent of the time, the true value of the surface will be within the interval formed by the predicted value, plus or minus 2 times the prediction standard error if data is normally distributed. Notice in the prediction standard error surface that locations near sample points generally have lower error."

    O sea que el valor que se ha interpolado, puede estar en un rango de +- dos veces lo que indica el Error estandar, entonces me parece que si en ese caso el mayor valor es 58.16 no es que indica 58.16 %, sino es que el dato interpolado en esa zona puede estar + 2 veces arriba de 58.16 o -2 veces 58.16, o dicho de otra manera si un valor de altura de agua fuera no se... digamos que 70 metros y el valor del error estandar da 58.16, quiere decir que si es + 2 veces el valor... entonces seria 70 + 58.16 +58.16= 186.32.

    Me parece que ese tema debe quedar claro, por favor agradezco sus comentarios ya que esri indica que ese mapa no está dando en porcentaje, sino en:

    A simple rule of thumb is that 95 percent of the time, the true value of the surface will be within the interval formed by the predicted value, plus or minus 2 times the prediction standard error if data is normally distributed. Notice in the prediction standard error surface that locations near sample points generally have lower error.

    Y EXCELENTE LOS TUTORIALES

    Gracias por sus respuestas

    ResponderEliminar
  29. Muy buen aporte, tengo una duda al momento de obtener mi krigging y exportarlo al raster estas imágenes no me salen lo mismo es decir, el raster obtenido posee un color de contorno distorsionado y no toma los mismos rangos del krigging, espero me puedo absolber esta duda les estaría muy agradecida y nuevamente Gracias por los tutoriales.

    ResponderEliminar
  30. Excelente explicación Gracias :)

    ResponderEliminar
  31. Muy detallada y clara la explicación, seguiré este blog pues veo que tienes temas interesantes

    ResponderEliminar
  32. Hola buena tarde excelente el tutorial; hay posibilidad de tener los datos con que se realizó el ejercicio.

    ResponderEliminar

Tu comentario es muy importante...¿Cómo te pareció el tema?