Manual de Procesamiento IBPP
Manual de Procesamiento IBPP
Manual de Procesamiento IBPP
2
Editores:
Este documento puede ser reproducido parcial o totalmente con la autorización de las instituciones
editoras.
3
1. INVENTARIO DE BOSQUES DE PRODUCCIÓN PERMANENTE
Mediante Resolución Ministerial N° 172-2012-AG se aprueba el Manual base para la Planificación y
Ejecución de Inventarios Forestales en Bosques de Producción Permanente (Versión 1.0), en cual se
detallan
f. Diseño de muestreo
Revisar alternativas metodológicas
Identificar zonas de muestreo
Diseño de parcela
Diseño de muestreo
Método de estimación
Evaluación de la variabilidad
g. Selección de parcelas
Determinación del tamaño de muestra
Distribución de la muestra
i. Entrenamiento y capacitación
Inducción técnica de la metodología
Trabajo de campo
Evaluación y certificación
4
Ejecutar el modelo en un parea piloto, retroalimentar el proceso y realizar ajustes al diseño de
inventario.
a. Trabajo de campo
Instalación de parcela (Unidad Muestral) y recolección de datos
Control de calidad de la instalación y registro de datos
a. Procesamiento de datos
Preparar datos para análisis
Aplicación de herramientas matemáticas y estadísticas
b. Análisis e interpretación
Respuesta a preguntas formuladas para el inventario
Reportes y socialización
c. Retroalimentación
Evaluación de satisfacción de datos recolectados y necesidades de información
Precisión y costos
d. Gestión de la información
Planeamiento estratégico
En San Martín, se ejecutaron dos fases, la primera en el año 2013 con el levantamiento de 9 UM y la
segunda en el año 2016 con otras 10 UM, representando un área aproximada de 50 158.2 y 55
731.34 ha de BPP respectivamente.
5
a. Curso Planificación, Diseño y levantamiento de datos de campo del Inventario en Bosques de
Producción Permanente realizado en Loreto, parte teoría en Iquitos y práctica en Nauta,
Concesión Forestal con Fines Maderables Industrial Maderera Zapote S.A., del 1 al 5 de
octubre de 2019.
6
2. CONTROL DE CALIDAD DE DATOS
2.1. Definición
2.2. Utilidad
La función principal del control de calidad es asegurar que los productos o servicios cumplan con los
estándares mínimos requeridos.
2.3. Objetivos
a. Identificación de UM
Las hojas de ruta describen el acceso desde una localidad debidamente identificada hacia la
unidad muestral a inventariar; en ellas se detallan las vías de acceso, medio de transporte y
tiempos aproximados de desplazamiento según el medio de transporte a utilizar
c. Variables y tolerancias
d. Materiales y equipos
Deben ser de la misma característica a los empleados por la brigada regular de evaluación.
Complementariamente se pueden emplear otros instrumentos de mayor precisión.
7
e. Formatos de campo y listas de chequeo
Los formatos utilizados los controles de calidad han sido creados para que el supervisor QC
realice ordenadamente el control en cada paso del proceso. Los formatos son una
herramienta de control importante para conocer como han sido realizados la colecta de
datos y levantamiento de las unidades muestrales por las brigadas de medición.
f. Capacitación y certificación
Las capacitaciones constituyen una actividad de vital importancia para el control de calidad,
se deben realizar primero a los supervisores de control de calidad (QC) y segundo a las
brigadas de medición de campo; cada una es realizada en momentos diferentes con temas
semejantes.
El chequeo en frío y ciego, lo deberá conformar una brigada de control de calidad con siete
personas (Supervisor, Botánico y personal de apoyo).
2.4.2. En campo
Este control es realizado por el jefe de la brigada de medición de campo, quien deberá
realizar a diario una revisión del avance la unidad muestral del proceso y de los datos
colectados en el formato de registro.
8
Realizar el control de calidad de la UM sin la información levantada por la brigada de
medición según metodología del IBPP, para luego ser comparada y analizada en gabinete y
así mejorar la calidad de los datos de los inventarios. Los resultados y análisis pueden
conllevar a reajustar las tolerancias en determinadas variables.
2.4.3. En gabinete
a. Validación de productos
Los archivos descargados de los GPS llevados a campo (tracks y waypoints) son un
importante medio de verificación del desplazamiento seguido por la brigada de evaluación.
Mediante estos archivos se verifica:
Los resultados de esta revisión deben considerarse con carácter preliminar, el rechazo de
estos requerirá su verificación en campo, realizando un control frío de la información
b. Limpieza de datos
Esta etapa debe ser realizada por un supervisor QC con experiencia en base de datos y
conocer a detalle las variables que son recogidas en campo, como también conocer los
protocolos o manuales de limpieza de datos, con experiencia en manejo de equipos RPD.
9
3. VALIDACIÓN DE PRODUCTOS
Revisar que contengan la información registrada en campo, revisando uno a uno los formularios
para cada tema desarrollado (maderable, no maderable, carbono, fauna, otro)
Al revisar los formularios y encontrar información faltante, incompleta o ilegible se debe consultar
al jefe de brigada y especialista encargado del tema desarrollado a algún material de apoyo
empleado para el registro de la información como libretas de campo, fotografías, información del
GPS u otro que pueda completar los datos no registrados en la libreta.
Considérese lo manifestado por Acuña E. (2008), adaptado por Menacho (2019), indicando que el
impacto de valores faltantes puede requerir métodos sofisticados para la imputación de datos
entre el 5 al 20% de valores faltantes y que en el caso de superar el 20% perjudica las
interpretaciones. En tal sentido, no deberá admitirse una libreta de campo que posea un formulario
con información faltante que supere el 20% de datos y que estos vacíos sean injustificados o se
evidencien que se generaron por descuido del evaluador.
A la llegada de la brigada a la ciudad principal se debe solicitar toda la información cruda registrada
en el receptor GPS, cámaras fotográficas, Registradores Portátiles de datos (de haberlos empleado)
u otros instrumentos empleados.
Se debe contar con memorias externas con suficiente capacidad para poder almacenar toda la
información. Esta información será analizada una vez que la brigada haya culminado su trabajo post
campo entregando el informe del levantamiento de datos de campo, la carpeta estructurada por
temáticas de los registros fotográficos y del GPS y la base de datos digital con los datos de campo.
De existir cartas, manifestaciones o actas suscritas con poblaciones o autoridades locales, éstas se
deberán mostrar y el representante del Gobierno Regional deberá de revisar su contenido y sacar
copia a la misma, con la finalidad de ser revisada con el producto a entregar.
10
Se revisará la ruta seguida por la brigada desde la ciudad principal hasta la unidad de muestreo, la
instalación y evaluación de la parcela, posterior a ello su desplazamiento hacia otro punto y así
tantas veces se tengan UM levantadas por la misma brigada y correspondan a dicho producto.
Con la información del track o ruta se coteja el desplazamiento y tiempo que tomó la brigada por
tramo y que éste corresponda al declarado en el informe, debiendo coincidir el medio de
transporte y tiempo con la velocidad del track. Además, de la revisión fotográfica, se debe
corroborar si existe el registro fotográfico o video correspondiente en cada punto de paso de la
brigada o dificultad declarada en el informe.
Se debe revisar que el track provenga de un trabajo de campo, para lo cual deberá revisarse
los datos contenidos en propiedades del track, pudiendo evidenciar información a detalle
referente a velocidad del tramo y tiempo de tramo. En los casos que el track es dibujado en
gabinete, los datos de velocidad y tiempo se mantienen vacíos en la tabla de propiedades.
11
Figura 3: Track de campo y track dibujado
Al evidenciar un track dibujado o que fue completado en gabinete, será motivo para
solicitar los descargos correspondientes al jefe de brigada, ya que demostraría que no se
ejecutó el trabajo de campo.
Adicionalmente se debe revisar el track del GPS del jefe de brigada y del especialista en
fauna silvestre (Cuando el inventario contemple fauna silvestre), ambas rutas de la parcela
deben ser similares o coincidir dentro de las dimensiones de cada sub parcela. De encontrar
trazos diferentes, discrepantes o con otra orientación y no tener sustento en el informe de
campo, se procederá a realizar la consulta a ambos especialistas y de aún persistir las
incongruencias se procederá a recomendar un control frio.
12
Figura 5: Foto de pantalla de satélites y coordenadas respecto a libreta de campo. (Ejemplo INF)
Si la ubicación del punto de referencia excede los 20 m, se tendrá que consultar al jefe de
brigada cual sería el motivo de dicha diferencia (entre coordenada de pantalla de GPS en
campo y la consignada en el waypoint y/o libreta de campo. De encontrar inconsistencias y
que este tipo de hallazgo se repita en otros puntos de referencia, será motivo para priorizar
un ingreso a campo para un control frio.
b. Alineación y declinación
Para la revisión de los tracks, se procederá a importar los datos del GPS y abrirlos en
programas como Base Camp, Google Earth, Arc Gis u otro programa que permita visualizar
el recorrido de la brigada.
Los criterios de revisión serán los siguientes:
La revisión del eje del track para las subparcelas A (Norte), B (Este), C (Sur) y D (Oeste)
deben corresponder a los ejes cardinales con orientaciones 0, 90, 180 y 270° respecto al
Norte Verdadero. Con ello se verificará que se empleó la declinación magnética en
campo para la corrección de la orientación respecto al Norte Magnético. Puede existir
desviación de 5° por cada 50 m del eje.
La ubicación del punto central, los puntos de inicio y final de cada sub parcela deben
tener un error que no supere los 20 m. (En Proceso de Convergencia, se estimaron
13
márgenes de error de ubicación entre 0 a 20 m principalmente en tres trabajos de
campo con 90 repeticiones en cada caso)
14
c. Número de registros y tiempo de evaluación
Para esta revisión se procede a cargar la información en Base Camp, Google Earth, Arc Gis u
otro programa que permita visualizar el recorrido de la brigada, el tiempo de
desplazamiento y la cobertura. Además, se debe tener la base de datos proporcionada por
cada especialista, se deben preparar tablas dinámicas para observar:
Si existe cobertura y se evidencia que conforme pasa el tiempo de evaluación por día va
disminuyendo el número de individuos se considerará un indicio que la brigada dejó
individuos sin evaluar, procediendo a recomendar su verificación de campo mediante
chequeo en frío.
Del mismo modo, de existir una tendencia a sólo escribir un rango de diámetros o
alturas similares, no colocar dos decimales y un decimas respectivamente en los
formatos de campo respecto al avance diario (tiempo), se presumirá que la evaluación
se realizó muy rápido sin aplicar los criterios necesarios para la toma de datos,
procediendo a recomendar su verificación de campo mediante chequeo en frío.
Los datos de campo, tanto en la libreta forestal como en la libreta botánica deben coincidir, en
cantidad de especies y registro de individuos. De no coincidir el 20% de los datos, se recomendará
rechazar la UM y recomendar su reevaluación.
Si existe cobertura y nuevas especies registradas en las libretas de campo, pero no se tiene colectas
para estas nuevas especies, se revisará si existe una tendencia a colectar menor cantidad de
especies conforme transcurre el día de levantamiento de datos, considerándose un indicio que la
brigada dejó árboles sin colectar debido a ganar tiempo en el avance, pero perjudicando la calidad
de la información, procediendo a recomendar su verificación de campo mediante chequeo en frío.
3.2.4. UM inaccesibles
Sin embargo, existirán casos en los cuales no se tienen los suficientes medios probatorios, ya que la
población local se negó a suscribir actas, se tuvo una zona de convulsión por narcotráfico o
15
terrorismo y la brigada no pudo arriesgarse a tomar la información audiovisual correspondiente.
Para tales casos se procederá a realizar las indagaciones correspondientes para confirmar o no la
inaccesibilidad por conflicto social.
En el caso de inaccesibilidad por barrera fisiográfica, el jefe de brigada debe proporcionar todos los
medios audiovisuales que confirmen la peligrosidad del ingreso originada por pendientes
pronunciadas, zonas rocosas y resbalosas, inundaciones u otros identificados y que
verdaderamente generen una barrera para el acceso de la brigada.
Cabe resaltar, que la brigada debe encontrar rutas alternas de ingreso para la evaluación de la UM,
de no poseerlas por falta de criterio o dejadez de la brigada o se verifica que el sector no se tuvo los
peligros advertidos (consulta a autoridades o personal del Gobierno Regional), no se considerará
válida la justificación de la inaccesibilidad y se recomendará su reingreso par evaluación.
16
4. CONCEPTO DE BASE DE DATOS
Los datos generados en campo deben ser almacenados en archivos digitales para su tratamiento y
posterior procesamiento, que conducirá al análisis de la información generada. Las aplicaciones
empleadas para almacenar los son de lo más variadas, siendo el Excel una de las más usadas; sin
embargo, el uso de sistemas de gestión de base de datos es preferible porque permite una mejor
gestión de los datos, como es el acceso a los datos y el uso más eficiente de la memoria de la
computadora.
Por esta razón, a continuación se hará una breve descripción de algunos términos usados en
informática.
4.1. Dato
4.2. Información
En el modelo más extendido (base de datos relacional) la base de datos consiste en un conjunto de
tablas entre las que se establecen relaciones.
A pesar de sus semejanzas debido a que ambos manejan conjuntos de tablas, existen una serie de
diferencias fundamentales entre un SGBD y un programa de hoja de cálculo. La principal es que un
SGBD permite:
17
Que el método de almacenamiento y el programa que gestiona los datos (servidor) son
independientes del programa desde el que se realizan las consultas (cliente).
Realizar consultas complejas.
El acceso a la vez, de múltiples usuarios autorizados para el acceso a los datos, garantizando la
ausencia de problemas de seguridad o integridad.
Algunos ejemplos de sistemas de gestión de base de datos son: Access, MySQL, SQLite, PostGres,
entre otros.
El modelo más utilizado actualmente corresponde al de bases de datos relacionales, que consiste
en un conjunto de tablas, similares a las tablas de una hoja de cálculo, formadas por filas (registros)
y columnas (campos).
Campos
Tabla: árboles
Los registros representan cada uno de los objetos descritos en la tabla y los campos los atributos
(variables de cualquier tipo) de los objetos.
En el ejemplo se muestran dos tablas relacionadas entre sí. La tabla Unidad Muestral contiene la
ubicación geográfica de cada una de las Unidades de Muestreo o parcela evaluada y la tabla
Árboles, los datos de los árboles registrados en una de las Unidades de Muestreo.
De esta manera se evita que para cada árbol se tenga que ingresar la ubicación geográfica de la
Unidad de Muestreo, lo cual demandaría una mayor consumo de memoria, que es un recurso
limitado y además si tuviese que hacerse un cambio en el nombre de la unidad político-
administrativa, tendrían que modificarse todos los registros de la tabla Árboles.
En el modelo relacional de base de datos, las tablas comparten algún campo entre ellas. Estos
campos compartidos van a servir para establecer relaciones entre las tablas que permitan consultas
18
complejas. En el ejemplo, ambas tablas tienen un elemento común (campo) mediante el cual se
relacionan, que corresponde al campo UM.
Las relaciones que se establecen entre los diferentes elementos de dos tablas en una base de datos
relacional pueden ser de tres tipos:
Para el caso del ejemplo, la relación de la tabla Unidad de Muestreo con la tabla Árboles es de uno
a varios, porque cada Unidad de Muestreo tendrá varios árboles registrados.
El siguiente gráfico, muestra el ejemplo de las relaciones en una base de datos real, más compleja.
19
5. REVISIÓN DE DATOS EN GABINETE
Una vez realizada la revisión de productos, las libretas de campo y las bases de datos pasan a una
etapa de prueba de consistencia de los registros realizados en campo.
El primer paso es revisar la base de datos entregada por las brigadas para detectar posibles
inconsistencias que pueden tener dos fuentes de error:
(1) Un registro incorrecto de datos en el campo
(2) Una digitación incorrecta en la base de datos
A este proceso se le denomina limpieza de datos (data cleansing en inglés) y es la etapa previa al
procesamiento de los datos almacenados en la base de datos y su posterior análisis estadístico.
En algunos casos, es posible recuperar los datos originales si es que hubo una mala transcripción a la
base de datos. Pero en otros, como la omisión del registro de alguna variable genera datos faltantes
(missing data en inglés) o el registro de un valor fuera del rango permitido, que son denominados
valores atípicos (outliers en inglés), la situación es más compleja y para ello, se han desarrollado
diferentes métodos para su recuperación.
En el campo:
a) Omisión del registro de algunas variables: lo cual genera la existencia de campos vacíos. Esto
suele ocurrir por descuido en el campo, al no haber realizado el registro en la libreta. Por ello, es
importante que el jefe de brigada se dé el tiempo suficiente al terminar la jornada de trabajo en
revisar las libretas de campo para ver si existe alguna omisión en el llenado de la libreta para que
se pueda solucionar el problema in situ.
c) Valor numérico fuera del rango permitido: que se produce a veces por la inversión de columnas
durante el registro de datos. Por ejemplo, la altura de fuste con la altura total. Otro ejemplo es el
registro de árboles con un DAP menor del permitido en algunas sub unidades de muestreo.
f) Selección de una opción inexistente: sobre todo en variables cualitativas que deben ser
seleccionadas a partir de un listado de opciones.
g) Relación DAP con Alturas de fuste y total desproporcionadas: valores de diámetro muy bajos
para alturas con valores muy altos o viceversa, generando datos atípicos u outliers.
20
h) Alturas de fuste mayores que alturas totales: es un error frecuente que ocurre mayormente
durante la anotación en la libreta de campo, sin embargo, a veces suele ocurrir en el proceso de
digitación en la base de datos.
j) Falta de documentación de por qué no se hicieron registros en algunas SUM: existen dos
posibilidades, (1) no había individuos para medir o (2) la SUM no fue muestreada por alguna
razón. Esta omisión, afectará el procesamiento de los datos.
k) Inconsistencia de variables cualitativas: por ejemplo, registros de árboles vivos con grado de
descomposición podrido, o código correspondiente a un árbol para un registro de palmeras
l) Incorrecta identificación o escritura de nombres científicos: que incluye varios casos como por
ejemplo,
- Escritura errónea de un nombre científico que genera la existencia de una nueva especie cuando
en realidad se escribe de otra manera, como es el caso de la escritura de Hyeronima sp. en vez
de Hieronyma sp.
a) Deficiente ortografía o digitación: suele ocurrir que a pesar de estar bien escrito un texto o
número en la libreta de campo, al momento de hacer la transcripción a la base de datos, se
comete el error ortográfico o de digitación.
21
Cuando se identifican inconsistencias en los registros de una base de datos, se procede a hacer la
comparación con las libretas de campo para determinar si ha habido una mala digitación. Este es el
caso más sencillo de resolver; sin embargo, si los errores son continuos, se pierde mucho tiempo en
las comparaciones con las libretas de campo.
Sin embargo, si los errores provienen de la toma de datos en campo, la situación puede tornarse
compleja. En algunos casos, los datos de campo mal registrados pueden ser corregidos en gabinete
como es el caso de una mala escritura de un nombre científico, pero en otros casos, el registro
erróneo es irrecuperable como es el caso de las variables cuantitativas como el DAP y las alturas.
Para ello existen diferentes herramientas o técnicas que permiten corregir errores de digitación o
estimar algunos valores faltantes o atípicos.
La importancia de trabajar con sistemas de gestión de bases de datos, es que estas cuentan con
tablas maestras que almacenan la mayoría de las especies posibles de encontrar en una región o
país. El procedimiento para determinar errores consiste en realizar una comparación (match)
entre la especie registrada en el inventario y aquellas almacenadas en la tabla maestra de
especies.
Estas tablas maestras deben ser revisadas periódicamente para incluir actualizaciones, sobre todo
en una época en la que las pruebas de ADN están generando continuos cambios en las relaciones
filogenéticas de las especies.
22
Caso 3. Especies inexistentes en el país
Inclusión de una especie que no se distribuye en el Perú, sino en países africanos como Camerún,
Congo y Gabón.
Cuando se hace referencia a un género, el epíteto referido a la especie debe escribirse seguido
de un punto. Por ejemplo: Abarema sp. o Cedrela sp.
La primera letra del género siempre debe ir en mayúsculas y todas las letras de la especie en
minúsculas. Por ejemplo: Naucleopsis glabra o Eschweilera juruensis.
Para ello, se disponen de algunas herramientas de consulta en la web, que permiten conocer las
últimas actualizaciones de los nombres científicos y pueden ser una referencia de gran ayuda para
resolver los problemas de sinonimia, desactualización o distribución en otros países, e inclusive
continentes.
a) www.tropicos.org
23
En el ejemplo, se ha ingresado el género Abarema como criterio de búsqueda y luego de hacer clic
en el botón Search, se desplegará un listado de todas las especies que corresponden a dicho
género.
Al seleccionar alguna de las especies, por ejemplo Abarema acreana, nos proporciona
información más detallada sobre dicha especie:
24
Si se selecciona la pestaña Specimens, se mostrarán los resultados de los registros de distribución
de la especie consultada.
b) http://tnrs.iplantcollaborative.org/TNRSapp.html
Esta página permite ingresar un listado de hasta 5,000 especies desde un archivo en Excel
simplemente con la opción Copiar y Pegar a la ventana Enter scientific names to check, usando
la pestaña Enter list. Luego, hacer clic en la opción Submit list.
25
Ejercicio 1
A partir de los archivos proporcionados, se realizará una revisión de los nombres científicos
ingresados, de acuerdo con una serie de pasos:
1. Insertar 2 columnas al lado del nombre científico, para hacer la búsqueda en la primera
columna (COMP1) y la confirmación en la segunda (COMP2).
=BUSCARV(G2,archivo de comparación,1,0)
=SI(G2=H2,”OK”,”ERROR”)
En el gráfico puede observarse en la columna H que hay nombres coinciden, pero otros
aparecen con las siglas #N/D, que significa que dicho nombre científico no está disponible en
la tabla maestra.
3. Para verificar si los nombres científicos son correctos, es decir, si están bien escritos,
actualizados o se distribuyen en nuestro país, se puede usar la herramienta proporcionada
por la aplicación TNRS, ingresando los nombres científicos aparentemente incorrectos para
realizar la consulta, como se muestra en un gráfico anterior.
Dicho gráfico muestra que 3 nombres científicos están aceptados, 3 con correcciones y 2 son
sinónimos, pero el nombre usado no es el aceptado.
26
4. Por último, Piptadeniastrum africana, que además está mal escrito, porque debió haberse
ingresado como P. africanum nos da un indicio de su distribución. Para ello, puede usarse la
página de tropicos.org para hacer la búsqueda correspondiente y confirmar si dicha especie
se distribuye realmente en el Perú.
Se verá que dicha especie se distribuye en Camerún, Congo, Gabón, República Central
Africana, Ghana y Guinea.
Por tanto, este registro deberá indicarse que es una especie no identificada (ZZ.NN)
Ejercicio 2
A partir del archivo proporcionado (Ejercicio-02.xlsx), se realizará una revisión de las alturas de
fuste (comercial) y las alturas totales para detectar inconsistencias.
1. Del mismo modo que en el ejercicio anterior, se creará 1 columna para hacer la comparación,
usando la función: =SI(R2<=S2,”OK”,”ERROR”).
A partir de este resultado, se debe tomar una decisión que, en el presente caso, será invertir
el orden de las columnas con error.
27
Ejercicio 3
Se espera que los registros en las SUM de la 1 a la 4 y de 7 a la 10, no existan DAP menores a
30 cm, porque solo se deben evaluar árboles y no fustales en ellas.
2. A continuación, se inserta una columna al lado derecho del DAP para establecer la sentencia
condicional: =SI(Q2>=30,”OK”,”ERROR”).
Esto significa que en las celdas filtradas (SUM 1 a 4 y 7 a 10), los DAP solo deben ser mayores o
iguales a 30 cm, de lo contrario se mostrará ERROR en la columna creada.
28
Si se filtra la columna creada para que muestre solo aquellos registros que no cumplen con la
condición (ERROR), se observará que estos son 3189, que es un número bastante grande de
registros, equivalente al 19.36 % del total de registros.
La decisión es este caso es contundente, estos registros deben eliminarse de la base de datos
porque no cumplen con los requisitos del diseño de muestreo del inventario.
Es frecuente encontrar datos que no fueron registrados en el campo, por tanto, en la base de
datos se encontrarán celdas vacías. Se les denomina missing data en inglés.
Dependiendo de la aplicación que utilicemos, estos datos faltantes son considerados con las siglas
NA (del inglés Not Available o No Disponible), en otros casos, estos campos vacíos son llenados
por asteriscos.
Los analistas de datos han establecido una escala del impacto de los datos faltantes sobre el
análisis de los mismos.
Por ello, existen algunas alternativas frente a la existencia de datos faltantes, estas son:
29
5.2.3. Datos atípicos
Son aquellos valores que escapan de los rangos esperados para una variable. Por ejemplo, un DAP
muy pequeño para una Altura total muy grande o viceversa. A estos datos se les denomina
outliers en inglés.
En esta situación, es común que se desee reponer las observaciones y se decida aplicar algún
método de sustitución de datos y de imputación. No obstante, utilizar algún procedimiento
inapropiado puede generar más problemas de los que resuelve, introduciendo sesgos en el valor
de los estimadores y en su error estándar, al tiempo que podría distorsionar la potencia de las
pruebas de hipótesis, lo que sugiere reflexionar acerca de la mejor manera de obtener
estimadores que generen inferencia válida a partir de datos imputados.
Medina y Galván (2007) presentan un tratamiento bastante conciso y práctico de los diferentes
métodos de imputación de datos con resultados comparativos de su uso.
Existe un gran número de aplicaciones para realizar el análisis preliminar de los datos con el fin de
conocer cuáles son los patrones de comportamiento encontrados. Los paquetes estadísticos como
SPSS, Minitab, Stata, Statgraphics, MatLab e Infostat, entre otros tienen un costo que muchas
veces no está al alcance de la economía del investigador.
Sin embargo, se han desarrollado diferentes aplicaciones de libre acceso y sin costo alguno, como
es el caso del ampliamente utilizado R, y su interfaz RStudio. Puede ser un poco complicado al
principio porque utiliza un sistema de códigos a los cuales no está acostumbrado el usuario
común, pero ofrece un sinnúmero de posibilidades y puede adaptarse a cualquier diseño
experimental que se utilice.
Cada aplicación tiene sus ventajas y desventajas y no es propósito en este curso elegir la mejor
opción.
Una de las aplicaciones más usadas por los profesionales y público en general es el Excel, que
cada nueva versión ofrece mejoras en el tratamiento y análisis de datos, que no llegará a
reemplazar a un software estadístico, pero que ayuda mucho a comprender la naturaleza de los
datos recogidos en el trabajo experimental.
1
https://www.seh-lelha.org/que-es-el-metodo-de-estimacion-de-maxima-verosimilitud-y-como-se-interpreta/
30
En el presente manual se utilizará el Excel por ser ampliamente conocido y utilizado por los
participantes y se hará una demostración del uso de dos métodos de imputación simple:
En el presente curso se utilizarán los datos de la tabla Ejercicio 3.xlsx después de haber hecho la
limpieza de las alturas comercial y total, invirtiendo los valores de las columnas en donde la
primera variable era mayor que la segunda variable. Sin embargo, en esta tabla no se han
eliminado los fustales que fueron detectados en SUM en las que no debieron ser medidos, debido
a que proporciona un mayor número de observaciones del DAP de las especies registradas.
Ejercicio 4
1. El primer paso es realizar un filtro por el campo Nombre científico y luego de ello, seleccionar
la especie Otoba parvifolia. Esta especie cuenta con 206 registros.
31
3. Para esta práctica demostrativa, se va a suponer que existen 20 datos de altura total faltantes,
los cuales han sido seleccionados al azar del total de 206 registros. Esto se hizo con la función
de Excel: =ALEATORIO.ENTRE(1,206). Como en cada computadora los resultados serán
diferentes, se debe asumir que los registros elegidos al azar son los siguientes:
N° Registro N° Registro
1 5 11 103
2 39 12 114
3 54 13 119
4 56 14 127
5 57 15 153
6 62 16 156
7 67 17 169
8 74 18 187
9 77 19 191
10 97 20 205
4. A continuación, crear una columna que se llamará HT-media donde se copiarán los datos de la
columna altura total y después se borrarán los registros proporcionados en la tabla de
números al azar previa.
5. La imputación por medias implica que se calculará el promedio de toda la columna HT2-media,
sin los 20 datos faltantes, y será este valor resultante el que se reemplazará en cada una de las
celdas vacías.
El promedio obtenido es de 17.2 y será este valor el que se reemplace en cada una de las
celdas sin datos y de esta manera, se habrá completado toda la tabla con los datos imputados.
32
4 Otoba parvifolia 31 14 14
5 Otoba parvifolia 16 12 17.2
6 Otoba parvifolia 31 15 15
Todas las aplicaciones estadísticas permiten aplicar diferentes métodos de regresión. Para el
presente ejercicio, se utilizarán aquellas disponibles en Excel. Para ello, se utilizarán 3 de estos
modelos: regresión lineal, regresión cuadrática y regresión logarítmica.
1. Igual que en el caso anterior, se crearán 3 columnas, una para cada modelo regresión que se
va a ajustar. De modo que los encabezados de la tabla quedarán de la siguiente manera:
2. Para ajustar el modelo de regresión lineal, se debe generar un gráfico seleccionando desde la
celda C1 hasta la celda D207 y luego ir a la barra de menú, seleccionar Insertar y en la sección
gráficos, seleccionar gráficos de dispersión.
33
4. Y se muestra el gráfico siguiente, que puede ser editado con título principal y en sus ejes.
Regresión lineal
35
30
25
Altura total
20
15
10
0
0 20 40 60 80 100 120
DAP
5. Al ubicarse en la zona de puntos y hacer clic derecho, se muestra una caja de diálogo con
diferentes opciones. De ellas, seleccionar la opción Línea de tendencia, y aparecerá al lado
derecho un conjunto de opciones para elegir.
Para este caso, elegir Lineal y hacer clic en las casillas Presentar ecuación en el gráfico y
Presentar el valor R cuadrado en el gráfico. De esta manera obtendremos lo siguiente:
Regresión lineal
35
30
f(x) = 0.2 x + 9.75
25 R² = 0.52
Altura total
20
15
10
0
0 20 40 60 80 100 120
DAP
6. Una vez obtenida la ecuación de regresión lineal, se puede predecir el valor de la variable Y
(altura total) para cada uno de los valores faltantes en la tabla de datos, escribiendo
simplemente la ecuación en la celda correspondiente, obteniendo así la siguiente pantalla:
34
N° Nombre científico dap altura total HT2-media HT3-RL
1 Otoba parvifolia 36 16 16 16
2 Otoba parvifolia 43 18 18 18
3 Otoba parvifolia 35 15 15 15
4 Otoba parvifolia 31 14 14 14
5 Otoba parvifolia 16 12 17.2 13.0
6 Otoba parvifolia 31 15 15 15
En donde el valor de altura total usando la ecuación de regresión lineal es 13.0 para el registro
5. Resta copiar y pegar la fórmula en las demás celdas vacías. En este caso el valor obtenido es
más cercano al valor real que utilizando la imputación por medias, pero ello no ocurrirá
necesariamente en las celdas vacías restantes.
Del mismo modo, para predecir el valor de Y (altura total), reemplazar la ecuación de regresión
cuadrática en las celdas vacías.
Regresión cuadrática
35
30
25
ALtura total
10
0
0 20 40 60 80 100 120
DAP
35
Regresión logarítmica
35
30
25
f(x) = 7.46 ln(x) − 8.8
Altura total
20 R² = 0.61
15
10
0
0 20 40 60 80 100 120
DAP
Se puede continuar con los otros modelos de regresión (exponencial y potencial), pero sus valores
del coeficiente de determinación (R cuadrado) 2 son bajos.
La tabla siguiente muestra los valores de R cuadrado para cada modelo de regresión y su
respectiva ecuación.
La siguiente tabla muestra los resultados imputados obtenidos aplicando las diferentes
herramientas de cálculo.
2
El coeficiente de determinación (R cuadrado) se define como la proporción de la varianza total de la variable explicada por la regresión.
Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que estamos intentando explicar.
36
97 Otoba parvifolia 31 18 17.2 16.0 23.0 16.8
103 Otoba parvifolia 47 22 17.2 19.3 35.0 19.9
114 Otoba parvifolia 37.6 20 17.2 17.4 27.7 18.3
119 Otoba parvifolia 39.2 23 17.2 17.7 28.9 18.6
127 Otoba parvifolia 30.5 17 17.2 15.9 22.6 16.7
153 Otoba parvifolia 22 17 17.2 14.2 17.0 14.3
156 Otoba parvifolia 41 22 17.2 18.1 30.3 18.9
169 Otoba parvifolia 26.2 6 17.2 15.1 19.7 15.6
187 Otoba parvifolia 30 18 17.2 15.8 22.3 16.6
191 Otoba parvifolia 50 25 17.2 19.9 37.4 20.4
205 Otoba parvifolia 22 14 17.2 14.2 17.0 14.3
Por último, analizando los promedios y demás estadísticos para toda la muestra de datos de la
especie Otoba parvifolia, una vez incluidos los datos imputados, puede notarse que las
variaciones no son tan grandes y constituyen al menos para esta especie una alternativa para
recuperar datos perdidos.
Referencias bibliográficas
Medina, F. & Galván, M. 2007. Imputación de datos: teoría y práctica. Santiago de Chile, CEPAL,
División de Estadística y Proyecciones Económicas. (Serie estudios estadísticos y prospectivos,
54). 84 p.
Menacho Chiok, César. 2019. Presentación en Curso "Métodos para la imputación de datos
faltantes". Lima, UNALM.
37