-->

06 marzo 2011

Análisis geoestadístico con ArcGIS parte 1. Estadística descriptiva

Antes de abordar en firme, el modulo de geoestadistica que viene con ArcGIS, es necesario recordar algunos conceptos de estadística, en particular de estadística descriptiva, que son necesarios para realizar un análisis geoestadístico con el software.

La estadística descriptiva, se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Para analizar los datos usualmente se construyen las tablas de frecuencias y se utilizan: la media, mediana, moda, desviación estándar, la varianza, coeficiente de curtosis, coeficiente de sesgo, coeficiente de variación, cuartiles, deciles y percentiles. Estos parámetros se agrupan en varias categorías conocidas como medidas de tendencia central, medidas de dispersión y medidas de forma.

Tablas de Frecuencias
Una forma de presentar ordenadamente un grupo de observaciones, es a través de tablas de distribución de frecuencias. Para construir una tabla de frecuencia se deben ordenar los datos de menor a mayor e incluir los siguientes parámetros.
 

Frecuencia Absoluta (ni)

Es el número de datos que están en un mismo intervalo.

Frecuencia Relativa (fi)

Es la frecuencia absoluta dividida por el número total de datos.

Frecuencia Absoluta Acumulada (Ni)

Es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. La última frecuencia absoluta acumulada es igual al número de casos.

Frecuencia Relativa Acumulada (Fi)

Es el resultado de dividir cada frecuencia absoluta acumulada por el número total de datos.

Numero de clases

Indica el número de intervalos en que se agruparan los datos.

Amplitud de la clase o intervalo

Se obtiene al dividir por dos, la diferencia del valor máximo y mínimo de los datos.

Marca de clase

Es el promedio de la suma del límite superior e inferior de cada intervalo o clase.

 
 
En el caso de datos agrupados se deberán determinar el número de intervalos, la amplitud de los mismos y la marca de clase, de la siguiente forma:
 
  
Distribución normal
Una distribución de probabilidad sigue una distribución normal, cuando la representación gráfica de su función de densidad es una curva positiva continua, simétrica respecto a la media, de máximo en la media, y que tiene 2 puntos de inflexión situados a ambos lados de la media y a distancia igual a la desviación estándar, es decir de la forma:

Propiedades.
  •  Tiene una única moda, que coincide con su media y su mediana.
  • La curva normal es asintótica al eje de abscisas.
  • Es simétrica con respecto a su media. Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.
  • Cuanto mayor sea la desviación estándar, más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución.
  • El coeficiente de sesgo es igual a cero (0).
  • La curtosis es igual a cero (0).
Para la aplicación de los métodos geoestadísticos es necesario verificar la función de probabilidad del conjunto de datos se aproximen a un comportamiento normal, esto lo veremos más adelante en el análisis exploratorio de los datos.

Con el fin de que este sea un ejemplo práctico para abordar el análisis geoestadistico con ArcGIS, ilustraremos todo los conceptos con un ejemplo a partir de datos de monitoreo de niveles piezométricos de agua subterránea que se presentan en la tabla siguiente. Para ello se seguirán los siguientes pasos.

1.     Organizar los datos de menor a mayor.
2.     Calcular la tabla de frecuencia.
3.     Realizar el histograma de frecuencias.
4.     Calcular los parámetros geoestadístico.


Paso 1. Organizar los datos de menor a mayor

Pozo
X
Y
Nivel Pz (msnm)
 
Pozo
X
Y
Nivel Pz (msnm)
1
1.038.638
1.368.620
2,0
 
28
1.044.694
1.371.405
6,00
2
.034.835
1.344.198
2,1
 
29
1.041.841
1.363.397
6,1
3
1.039.637
1.368.963
2,2
 
30
1.040.838
1.356.677
8,0
4
1.039.628
1.368.960
2,2
 
31
1.044.135
1.364.301
8,07
5
1.042.236
1.377.584
2,44
 
32
1.046.740
1.377.526
8,08
6
1.039.030
1.370.440
2,49
 
33
1.046.626
1.374.772
9,02
7
.036.835
1.354.454
2,9
 
34
1.042.604
1.360.903
9,21
8
1.043.217
1.357.777
2,99
 
35
1.039.466
1.348.279
10,1
9
1.040.082
1.373.095
3,2
 
36
1.041.429
1.333.870
10,3
10
1.039.392
1.374.231
3,3
 
37
1.045.207
1.363.183
10,8
11
1.040.434
1.368.119
3,33
 
38
1.044.733
1.360.337
11,5
12
1.039.720
1.368.500
3,35
 
39
1.048.893
1.374.744
11,82
13
1.042.060
1.376.470
3,43
 
40
1.040.383
1.355.006
12,2
14
1.041.545
1.369.212
3,7
 
41
1.042.263
1.354.636
12,3
15
1.042.045
1.371.752
3,8
 
42
1.039.411
1.336.953
12,8
16
1.040.269
1.377.908
3,97
 
43
1.048.342
1.369.941
14,62
17
1.040.731
1.371.643
4,0
 
44
1.046.214
1.355.644
14,9
18
1.042.360
1.376.070
4,29
 
45
1.044.935
1.336.931
16,6
19
1.040.390
1.376.776
4,5
 
46
1.041.256
1.339.628
18,16
20
1.035.335
1.356.941
4,5
 
47
1.048.313
1.360.466
19,14
21
1.047.035
1.371.548
4,62
 
48
1.044.224
1.348.328
24,1
22
1.042.020
1.370.310
4,66
 
49
1.044.765
1.341.254
24,2
23
1.033.716
1.352.675
5,0
 
50
1.046.735
1.356.327
25,57
24
1.042.570
1.377.470
5,10
 
51
1.045.454
1.346.959
27,15
25
1.035.564
1.343.433
5,2
 
52
1.050.523
1.361.111
30,08
26
1.042.520
1.368.530
5,38
 
53
1.052.106
1.361.728
35,32
27
1.042.932
1.368.255
5,87
         



Paso 2. Calcular la tabla de frecuencia.



Luego la tabla de frecuencias queda como la siguiente

No
Intervalo
Marca de clase
frecuencia absoluta
frecuencia absoluta acumulada
frecuencia relativa
frecuencia relativa acumulada
1
2,0076    -
6,1776
4,0926
29
29
0,55
0,55
2
6,1776    -
10,3476
8,2626
7
36
0,13
0,68
3
10,3476  -
14,5176
12,4326
6
42
0,11
0,79
4
14,5176  -
18,6876
16,6026
4
46
0,08
0,87
5
18,6876  -
22,8576
20,7726
1
47
0,02
0,89
6
22,8576  -
27,0276
24,9426
4
51
0,08
0,96
7
27,0276  -
31,1976
29,1126
1
52
0,02
0,98
8
31,1976  -
35,3676
33,2826
1
53
0,02
1,00


Paso 3. Realizar el histograma de frecuencias.

A partir de la tabla anterior se construye el histograma de frecuencias, el cual nos da una idea del comportamiento de los datos. Como primer acercamiento, se observa que los datos están dispersos, sesgados y la moda, la media y la mediana son diferentes, por tanto los datos no obedecen a una distribución normal.



Paso 4. Calcular los parámetros geoestadístico

a. Medidas de tendencia central
Intentan identificar el dato más representativo de la distribución del conjunto. Son las siguientes.

Media. Se le suele llamar promedio, se define como la suma de los valores de todas las observaciones divididas por el número total de datos. Se denota con µ o X.

En su cálculo intervienen todos los datos, por lo tanto, se ven influenciados por la variación de cualquiera de ellos. En particular, es sensible a los valores extremos, pues estos producen grandes modificaciones.

Para los datos agrupados del ejemplo, tenemos lo siguiente….

No
Intervalo
Marca de clase
frecuencia absoluta
producto
1
2,0076     -
6,1776
4,0926
29
118,685
2
6,1776     -
10,3476
8,2626
7
57,838
3
10,3476   -
14,5176
12,4326
6
74,596
4
14,5176   -
18,6876
16,6026
4
66,410
5
18,6876   -
22,8576
20,7726
1
20,773
6
22,8576   -
27,0276
24,9426
4
99,770
7
27,0276   -
31,1976
29,1126
1
29,113
8
31,1976   -
35,3676
33,2826
1
33,283
Suma
500,468
Media (suma/53)
9,443
Para los datos no agrupados

Pozo
NP

Pozo
NP
1
        2,0076
 
28
     6,0000
2
        2,1313
 
29
     6,1496
3
        2,2000
 
30
     8,0054
4
        2,2100
 
31
     8,0724
5
        2,4449
 
32
     8,0827
6
        2,4946
 
33
     9,0188
7
        2,8554
 
34
     9,2078
8
        2,9876
 
35
   10,1156
9
        3,2347
 
36
   10,2553
10
        3,2930
 
37
   10,8373
11
        3,3317
 
38
   11,5066
12
        3,3506
 
39
   11,8241
13
        3,4291
 
40
   12,2268
14
        3,6896
 
41
   12,3280
15
        3,7990
 
42
   12,8004
16
        3,9651
 
43
   14,6244
17
        3,9980
 
44
   14,9301
18
        4,2921
 
45
   16,6351
19
        4,4900
 
46
   18,1630
20
        4,5286
 
47
   19,1410
21
        4,6227
 
48
   24,0632
22
        4,6637
 
49
   24,2354
23
        5,0499
 
50
   25,5698
24
        5,1009
 
51
   27,1534
25
        5,2438
 
52
   30,0800
26
        5,3826
 
53
   35,3188
27
        5,8690
   

Suma
497,0104
Media (suma/53)
9,3776

Mediana. Es el valor de la serie de datos que deja la mitad de las observaciones por debajo de ella y la otra mitad por encima, es decir, divide al conjunto de datos en dos partes iguales y se denota por Me.

Dado que sólo depende del orden de los datos, tiene la ventaja de que no es sensible a los valores extremos.

En datos agrupados se calcula de la siguiente forma.

1. Calcular: n/2
2. La mediana será el valor de la variable cuya frecuencia absoluta acumulada primero iguale o supere a N/2. Este será el intervalo en el que se encuentra la mediana.
 
3. Aplicar la formula sustituyendo los valores correspondientes.


Para datos agrupados, tenemos lo siguiente….

Se calcula n/2 = 53/2 = 26.5, se busca este valor en la columna de la frecuencia acumulada de la tabla de frecuencia. Si no se encuentra, tomamos el valor siguiente, el cual es 29, por lo cual el intervalo donde se encuentra la moda es (2.0076 – 6.1776].

Fi=29
Fi-1=8
Li= 2.0076
a= 4.17



Para datos no agrupados, tenemos lo siguiente….
Como el número de datos de la muestra es impar e igual a 53, la mediana es el dato que ocupa el puesto 27(divide la muestra en dos partes iguales), el cual es: Me= 5.8690


Moda. Es el dato que más veces se repite, es decir, aquel dato o rango que presenta mayor frecuencia absoluta. Puede haber más de una moda en una distribución. Se denota por Mo.


Para datos agrupados, tenemos lo siguiente….

De los datos agrupados en la tabla de frecuencia, se observa que la mayor frecuencia absoluta es 29, por lo tanto el intervalo donde está la moda es (2.0076 – 6.1776].

Li=2.0076
a=4.17
d2=29-7 = 22
d1=29-0 = 29



b. Medidas de dispersión
Las medidas de dispersión indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. Nos dan una idea sobre la homogeneidad o que tan agrupado están los datos.

Desviación estándar. Indica cuánto tienden a alejarse los valores puntuales de la media. Se suele representar por una S. Una desviación estándar grande indica que los puntos están lejos de la media, y una desviación pequeña indica que los datos están agrupados cerca de la media.



Para datos agrupados, tenemos lo siguiente….
No
Intervalo
Marca de clase (Xi)
frecuencia absoluta
(Xi-X)²*fi
1
2,0076   -
6,1776
4,0926
29
830,111
2
6,1776   -
10,3476
8,2626
7
9,750
3
10,3476   -
14,5176
12,4326
6
53,634
4
14,5176   -
18,6876
16,6026
4
205,052
5
18,6876   -
22,8576
20,7726
1
128,365
6
22,8576   -
27,0276
24,9426
4
960,977
7
27,0276   -
31,1976
29,1126
1
386,901
8
31,1976   -
35,3676
33,2826
1
568,337
Suma
3143,12
n-1
52
S
7,774

Para datos no agrupados….
Pozo
NP
(Xi-X)²
 
Pozo
NP
(Xi-X)²
1
2,0076
54,3169
 
28
6,000
11,4082
2
2,1
52,5089
 
29
6,150
10,4200
3
2,2
51,5179
 
30
8,005
1,8829
4
2,2
51,3745
 
31
8,072
1,7035
5
2,44
48,0623
 
32
8,083
1,6768
6
2,49
47,3757
 
33
9,019
0,1287
7
2,9
42,5391
 
34
9,208
0,0288
8
2,99
40,8321
 
35
10,116
0,5446
9
3,2
37,7352
 
36
10,255
0,7704
10
3,3
37,0224
 
37
10,837
2,1307
11
3,33
36,5529
 
38
11,507
4,5326
12
3,35
36,3247
 
39
11,824
5,9854
13
3,43
35,3852
 
40
12,227
8,1179
14
3,7
32,3533
 
41
12,328
8,7049
15
3,8
31,1208
 
42
12,800
11,7156
16
3,97
29,2952
 
43
14,624
27,5289
17
4,0
28,9401
 
44
14,930
30,8303
18
4,29
25,8628
 
45
16,635
52,6713
19
4,5
23,8886
 
46
18,163
77,1833
20
4,5
23,5128
 
47
19,141
95,3240
21
4,62
22,6091
 
48
24,063
215,6668
22
4,66
22,2209
 
49
24,235
220,7542
23
5,0
18,7290
 
50
25,570
262,1873
24
5,10
18,2902
 
51
27,153
315,9791
25
5,2
17,0883
 
52
30,080
428,5894
26
5,38
15,9600
 
53
35,319
672,9459
27
5,87
12,3103
       
suma
3.363,14
n-1
52
S
8,042

Varianza. Describe la variabilidad de la distribución. Es la medida de la desviación o dispersión de la distribución. Se calcula mediante la ecuación.

Para datos agrupados, tenemos lo siguiente….
 
S² = 7.774² = 60.44

Para datos no agrupados, tenemos lo siguiente….
S² = 8.042² = 64.675

Coeficiente de variación. Mide la representatividad de la media. Valores extremos del mismo nos llevarán a concluir que la media no es representativa, es decir, existirán valores entre las observaciones que se separan significativamente de las demás.


 
Para datos agrupados, tenemos lo siguiente….
C.V = 7.74/9.443*100 = 82%

Para datos no agrupados, tenemos lo siguiente….
C.V = 8.042/9.3776*100 = 85.8%
c. Medidas de forma
Miden el grado de deformación respecto a una curva patrón (distribución normal).

Coeficiente de curtosis. Mide el grado de aplastamiento o apuntamiento de la gráfica de la distribución de la variable estadística. Datos concentrados respecto a la media (desviación estándar pequeña) dará una grafica alargada; si los datos están dispersos la gráfica será achatada o aplastada.

 

Nota: El valor calculado a través de la herramienta Geostatistical Analyst de ArcGIS no le resta 3 como aparece en la ecuación anterior.


Para datos no agrupados tenemos, lo siguiente:
Pozo
NP
(Xi-X)4
 
Pozo
NP
(Xi-X)4
1
2,0076
2.950,3256
 
28
6,000
130,1466
2
2,1
2.757,1808
 
29
6,150
108,5761
3
2,2
2.654,0983
 
30
8,005
3,5454
4
2,2
2.639,3382
 
31
8,072
2,9021
5
2,44
2.309,9875
 
32
8,083
2,8115
6
2,49
2.244,4559
 
33
9,019
0,0166
7
2,9
1.809,5744
 
34
9,208
0,0008
8
2,99
1.667,2604
 
35
10,116
0,2966
9
3,2
1.423,9469
 
36
10,255
0,5935
10
3,3
1.370,6549
 
37
10,837
4,5400
11
3,33
1.336,1150
 
38
11,507
20,5448
12
3,35
1.319,4859
 
39
11,824
35,8246
13
3,43
1.252,1157
 
40
12,227
65,9010
14
3,7
1.046,7389
 
41
12,328
75,7746
15
3,8
968,5028
 
42
12,800
137,2543
16
3,97
858,2062
 
43
14,624
757,8409
17
4,0
837,5292
 
44
14,930
950,5047
18
4,29
668,8854
 
45
16,635
2.774,2665
19
4,5
570,6668
 
46
18,163
5.957,2546
20
4,5
552,8518
 
47
19,141
9.086,6611
21
4,62
511,1702
 
48
24,063
46.512,1891
22
4,66
493,7663
 
49
24,235
48.732,4260
23
5,0
350,7750
 
50
25,570
68.742,2017
24
5,10
334,5301
 
51
27,153
99.842,7699
25
5,2
292,0101
 
52
30,080
183.688,8444
26
5,38
254,7224
 
53
35,319
452.856,1270
27
5,87
151,5428
       
suma
954.116,25
n-1
52
S4
4182,95
K
1,38

Coeficiente de sesgo o asimetría. Evalúa el grado de distorsión o inclinación que adopta la distribución de los datos respecto a su valor promedio tomado como centro de gravedad. El coeficiente de simetría de Pearson es:



Si CS = 0, la distribución es simétrica, en ese caso las desviaciones a la derecha y a la izquierda de la media se compensan.

Si CS < 0, la distribución es asimétrica negativa. La mayoría de las observaciones están a la derecha de la proyección de la media.

Si CS > 0 la distribución es asimétrica positiva. La mayoría de las observaciones están a la izquierda de la proyección de la media.

Para datos no agrupados tenemos, lo siguiente:

Pozo
NP
(Xi-X)3
 
Pozo
NP
(Xi-X)3
1
2,0076
-400,3156
 
28
6,000
-38,5323
2
2,1
-380,4950
 
29
6,150
-33,6357
3
2,2
-369,7752
 
30
8,005
-2,5838
4
2,2
-368,2318
 
31
8,072
-2,2235
5
2,44
-333,2017
 
32
8,083
-2,1712
6
2,49
-326,0869
 
33
9,019
-0,0462
7
2,9
-277,4485
 
34
9,208
-0,0049
8
2,99
-260,9171
 
35
10,116
0,4019
9
3,2
-231,8037
 
36
10,255
0,6761
10
3,3
-225,2662
 
37
10,837
3,1102
11
3,33
-220,9952
 
38
11,507
9,6500
12
3,35
-218,9291
 
39
11,824
14,6432
13
3,43
-210,4909
 
40
12,227
23,1296
14
3,7
-184,0258
 
41
12,328
25,6828
15
3,8
-173,6104
 
42
12,800
40,1000
16
3,97
-158,5600
 
43
14,624
144,4387
17
4,0
-155,6861
 
44
14,930
171,1850
18
4,29
-131,5267
 
45
16,635
382,2620
19
4,5
-116,7581
 
46
18,163
678,0858
20
4,5
-114,0136
 
47
19,141
930,6861
21
4,62
-107,5039
 
48
24,063
3.167,1971
22
4,66
-104,7469
 
49
24,235
3.279,9221
23
5,0
-81,0534
 
50
25,570
4.245,3899
24
5,10
-78,2215
 
51
27,153
5.616,7807
25
5,2
-70,6396
 
52
30,080
8.872,8285
26
5,38
-63,7603
 
53
35,319
17.457,0231
27
5,87
-43,1918
       
suma
          39.576,74
n-1
52
S3
520,13
Sesgo
1,46

A continuación se muestran los resultados obtenidos a través de las ecuaciones de datos agrupados y no agrupados, también se incluyen los resultados arrojados por la herramienta Geostatistical Analyst (la cual se verá más adelante). Se observa que los resultados obtenidos tanto por las ecuaciones aplicadas a datos no agrupados y los obtenidos por la herramienta Geostatistical Analyst son similares.
Parámetro
Datos agrupados
Datos no agrupados
Módulo Geostatistical analyst de ArcGIS
Observaciones
Media
9.443
9.3776
9.3776

Mediana
4.6678
5.869
5.869

Moda
4.378



Desviación estándar
7.74
8.0421
8.0421

Varianza
60.44
64.675
64.675

Coeficiente de Variación
82%
85.8%
85.75%

Curtosis

1.38
1.4709
A la curtosis que calcula ArcGIS se le debe restar 3
Sesgo o asimetría

1.46
1.4773


En el artículo Análisis geoestadístico con ArcGIS parte 2. Análisis exploratorio de los datos veremos el análisis exploratorio de los datos para después abordar el tutorial de la herramienta Geostatistical Analyst.


 

10 comentarios :

  1. Siempre muy buenos tus aportes, deseo saber si tienes algún tutorial para determiner el coeficiente de correlación (R2) entre dos rásters.

    Gracias sigue adelante con el blog.

    ResponderEliminar
    Respuestas
    1. Hola Franz, un gusto saludarte, no tengo un tutorial sobre ese tema pero veré que puedo hacer.

      Eliminar
    2. Hola! Franz, respetuoso saludo quiciera contactarte para solicitarte me ayudes con unos calculos, dado que he seguido al pie de la letra lo que has explicado pero no se que estoy haciendo mal. Ademas de un analisis que sobre proximidad que requiero.

      Gracias

      Eliminar
  2. Hola mi nombre es Carolina
    Me gustaría expresar mi gratitud por la labor que hace ayudándonos a manejar ArcGis, es de gran ayuda.
    Quería hacer una pregunta acerca del análisis exploratorio de los datos. En concreto que ocurre si mi listado de datos contiene muchos ceros. ¿Eso influye a la hora de cambiar el protocolo arriba explicado? ¿Debo ignorar esos ceros en el análisis?
    Muchas gracias.

    ResponderEliminar
    Respuestas
    1. Si es un dato, no lo debes eliminar, pues es u resultado. Ahora si es un campo vacío .. entonces no lo debes tener en cuenta

      Eliminar
  3. me llamo maria super me encanta la forma de tus publicaciones agradecerte por si acaso no tienes po ahi unos video tutoriales con arc gis 10 con respecto al tema de geoestadistica y traspaso de datos a exel como hacer en excel para que me generen los mismos graficos de ar gis

    ResponderEliminar
  4. hola Peter puedes por favor subir los datos para poder practicarlo mejor?

    ResponderEliminar
  5. donde esta la geoestadistica?

    ResponderEliminar
  6. Muy interesante este tema, pero me surgen unas dudas. ¿Qué pasa cuando los datos tiene un comportamiento bimodal? ¿Se pueden seguir analizando de la misma manera? o es necesario realizar el análisis de otra manera?

    Saludos

    ResponderEliminar
  7. bro el calculo de la mediana para agrupados esta mal ya que el intervalo (n-1) es 0 asi te saldria una mediana de agrupados de 5.81aprox gracias buena explicacion.

    ResponderEliminar

Tu comentario es muy importante...¿Cómo te pareció el tema?