Manual de Procesamiento IBPP

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 37

PROCESAMIENTO Y ANÁLISIS DE DATOS DE INVENTARIOS DE

BOSQUES DE PRODUCCIÓN PERMANENTE


Pucallpa, 12 – 13 de noviembre 2019

2
Editores:

Jorge Carranza Castañeda


Jorge Solignac Ruiz
Rodil Tello Espinoza
David Velarde Falconi

© Servicio Nacional Forestal y de Fauna Silvestre


Universidad Nacional de la Amazonía Peruana

Este documento puede ser reproducido parcial o totalmente con la autorización de las instituciones
editoras.

3
1. INVENTARIO DE BOSQUES DE PRODUCCIÓN PERMANENTE
Mediante Resolución Ministerial N° 172-2012-AG se aprueba el Manual base para la Planificación y
Ejecución de Inventarios Forestales en Bosques de Producción Permanente (Versión 1.0), en cual se
detallan

1.1. Flujo de operaciones

FASE 1: PLANIFICACION Y DISEÑO

a. Identificación de usuarios y establecimiento de objetivos


 Conformación de grupos interinstitucionales para inventarios forestales
 Revisión, identificación y definición de objetivos regionales
 Priorización y determinación de áreas de BPP para ejecución del inventario
 Saneamiento legal de áreas de BPP (conflictos, derechos otorgados, exclusión)

b. Selección de preguntas para el monitoreo

c. Selección de atributos o variables


 Determinadas en el manual base (potencial maderable)
 Otras variables (fauna, carbono, no maderables, belleza escénica, otras)

d. Compilar información secundaria disponible


 Ejecución de fases previas de inventarios BPP u otros (públicos o privados)
 Determinar vacíos de información
 Identificación de Herbarios

e. Determinación de limitaciones tiempo vs. costos

f. Diseño de muestreo
 Revisar alternativas metodológicas
 Identificar zonas de muestreo
 Diseño de parcela
 Diseño de muestreo
 Método de estimación
 Evaluación de la variabilidad

g. Selección de parcelas
 Determinación del tamaño de muestra
 Distribución de la muestra

h. Planificación del trabajo de campo


 Consideraciones administrativas y logísticas
 Socialización del Inventario (A nivel general y local)

i. Entrenamiento y capacitación
 Inducción técnica de la metodología
 Trabajo de campo
 Evaluación y certificación

FASE 2: EJECUCION DE PILOTO Y VALIDACION

4
Ejecutar el modelo en un parea piloto, retroalimentar el proceso y realizar ajustes al diseño de
inventario.

FASE 3: EJECUCION DEL IBPP

a. Trabajo de campo
 Instalación de parcela (Unidad Muestral) y recolección de datos
 Control de calidad de la instalación y registro de datos

b. Registro o digitación de datos


 Registro de datos en RPD
 Digitación en base de datos
 Validación de productos de campo
 Limpieza de datos

FASE 4: PROCESAMIENTO, ANALISIS Y REPORTE

a. Procesamiento de datos
 Preparar datos para análisis
 Aplicación de herramientas matemáticas y estadísticas

b. Análisis e interpretación
 Respuesta a preguntas formuladas para el inventario
 Reportes y socialización

c. Retroalimentación
 Evaluación de satisfacción de datos recolectados y necesidades de información
 Precisión y costos

d. Gestión de la información
 Planeamiento estratégico

1.2. Ejecución de inventarios de BPP

En Loreto, se ha ejecutado el levantamiento de datos de campo de 95 unidades de muestreo (UM) en


las zonas 7 y 8 durante el año 2011, representando un área de 969 558.55 ha.

En San Martín, se ejecutaron dos fases, la primera en el año 2013 con el levantamiento de 9 UM y la
segunda en el año 2016 con otras 10 UM, representando un área aproximada de 50 158.2 y 55
731.34 ha de BPP respectivamente.

En Ucayali, durante el año 2013 se levantaron 96 UM en Coronel Portillo y en el año 2016 se


levantaron 27 UM en Atalaya, quedando pendiente 22 UM para el levantamiento de información de
campo en el BPP 3-A1, actualmente se viene implementando la tercera etapa del IBPP, con un
máximo de levantamiento de datos en 36 UM en Coronel Portillo y Atalaya.

1.3. Actuado en el Proceso IBPP 2019

5
a. Curso Planificación, Diseño y levantamiento de datos de campo del Inventario en Bosques de
Producción Permanente realizado en Loreto, parte teoría en Iquitos y práctica en Nauta,
Concesión Forestal con Fines Maderables Industrial Maderera Zapote S.A., del 1 al 5 de
octubre de 2019.

En la primera parte de presentaron los aspectos de planificación del inventario, definición de


objetivos, consideraciones logísticas y el diseño del inventario, considerando el muestreo,
tipo de parcela y ejecución del IBPP en Loreto. Además, en campo se instaló una unidad
muestral y fue remedida por los mismos participantes.

b. Curso Introducción a la Estadística Forestal, desarrollado en Iquitos del viernes 1 al domingo


3 de noviembre de 2019.

El curso buscó reforzar el conocimiento y adecuado empleo de herramientas estadísticas


para el análisis de información, así como con los conceptos básicos de los diferentes tipos de
muestreo.

6
2. CONTROL DE CALIDAD DE DATOS

2.1. Definición

El control de calidad es el conjunto de los mecanismos, acciones y herramientas realizadas para


detectar la presencia de errores.

2.2. Utilidad

La función principal del control de calidad es asegurar que los productos o servicios cumplan con los
estándares mínimos requeridos.

2.3. Objetivos

 Asegurar una correcta implementación de la metodología del IBPP


 Garantizar la calidad de los datos de campo.
 Dar credibilidad y confianza de los resultados del inventario.

2.4. Fases del Control de calidad

La Dirección de Inventario y Valoración recomienda para acciones de control de calidad de datos,


implementar hasta 4 tipos de chequeo en campo y uno en gabinete.

2.4.1. Previas a campo

a. Identificación de UM

 Análisis de bosque y no bosque


 Criterios de selección (evaluadas, accesibilidad, tipo de bosque, distancia)
 Muestra del 10 % del total de UM levantadas.
 El control debe darse en las mismas condiciones

b. Preparación de hojas de ruta

Las hojas de ruta describen el acceso desde una localidad debidamente identificada hacia la
unidad muestral a inventariar; en ellas se detallan las vías de acceso, medio de transporte y
tiempos aproximados de desplazamiento según el medio de transporte a utilizar

c. Variables y tolerancias

 Cuantitativas (DAP, alturas, distancias, orientación, otras)


 Cualitativas (categorías, estados, condiciones, otras)

La tolerancia es el rango permitido de variación entre evaluaciones realizadas en las mismas


condiciones para una variable determinada.

d. Materiales y equipos

Deben ser de la misma característica a los empleados por la brigada regular de evaluación.
Complementariamente se pueden emplear otros instrumentos de mayor precisión.

7
e. Formatos de campo y listas de chequeo

Los formatos utilizados los controles de calidad han sido creados para que el supervisor QC
realice ordenadamente el control en cada paso del proceso. Los formatos son una
herramienta de control importante para conocer como han sido realizados la colecta de
datos y levantamiento de las unidades muestrales por las brigadas de medición.

f. Capacitación y certificación

Las capacitaciones constituyen una actividad de vital importancia para el control de calidad,
se deben realizar primero a los supervisores de control de calidad (QC) y segundo a las
brigadas de medición de campo; cada una es realizada en momentos diferentes con temas
semejantes.

La certificación es realizada para garantizar que el supervisor de calidad y profesionales de


campo hayan desarrollado de manera satisfactoria y con los criterios adecuados el
entrenamiento y capacitación

g. Conformación de la brigada de control

El chequeo en frío y ciego, lo deberá conformar una brigada de control de calidad con siete
personas (Supervisor, Botánico y personal de apoyo).

En el chequeo en caliente sólo el supervisor y el botánico.

2.4.2. En campo

a. Chequeo del jefe de brigada

Este control es realizado por el jefe de la brigada de medición de campo, quien deberá
realizar a diario una revisión del avance la unidad muestral del proceso y de los datos
colectados en el formato de registro.

b. Chequeo en caliente (con la brigada en campo)

Realizar el acompañamiento a la brigada de medición en el levantamiento y toma de datos


de la UM con el propósito corregir errores o sesgos que se esté realizando en las
mediciones proporcionando en el momento medidas de corrección para que no sean
frecuentes. Si se evidencia deficiencias en el levantamiento de datos, se realiza una
capacitación pequeña para corregir y reinstalar la parcela o en el caso extremo de no
visualizar mejora, se procede a dar por concluida la evaluación y retirase con la brigada.

c. Chequeo en frio (con libretas de campo de la brigada)

Realizar el control de calidad a la brigada de medición sobre el levantamiento y toma de


datos de la unidad muestral sin la presencia de ésta, la cual ayudará a realizar un
seguimiento y análisis de las empresas contratantes que realizan los inventarios. Revisar
ubicación del punto central, alineación y revisar algunas SUM o UR y tener la misma
consideración (correcto levantamiento o no). Considerar la fisiografía, condiciones
climáticas u otras variables externas para la interpretación de los resultados del control.

d. Control ciego (Nueva evaluación de la UM sin referencias)

8
Realizar el control de calidad de la UM sin la información levantada por la brigada de
medición según metodología del IBPP, para luego ser comparada y analizada en gabinete y
así mejorar la calidad de los datos de los inventarios. Los resultados y análisis pueden
conllevar a reajustar las tolerancias en determinadas variables.

2.4.3. En gabinete

a. Validación de productos

Los archivos descargados de los GPS llevados a campo (tracks y waypoints) son un
importante medio de verificación del desplazamiento seguido por la brigada de evaluación.
Mediante estos archivos se verifica:

 Revisión del acceso de la brigada según lo descrito en el informe de campo.


 La instalación correcta de la UM, se verifica que la unidad de muestreo se haya
establecido de acuerdo con el diseño correspondiente, aplicando la declinación
magnética proporcionada y considerando el error de precisión que poseen los
navegadores GPS.
 La ubicación de los registros de fauna silvestre.

Los resultados de esta revisión deben considerarse con carácter preliminar, el rechazo de
estos requerirá su verificación en campo, realizando un control frío de la información

b. Limpieza de datos

Esta etapa debe ser realizada por un supervisor QC con experiencia en base de datos y
conocer a detalle las variables que son recogidas en campo, como también conocer los
protocolos o manuales de limpieza de datos, con experiencia en manejo de equipos RPD.

El control se divide en dos partes, según el protocolo de limpieza de datos de los


inventarios forestales: a) revisión de datos y b) revisión de tablas, realizado por el
supervisor QC de base de datos, el supervisor realizará el control de calidad al azar en
base a los protocolos de limpieza utilizados en cada inventario, después que hayan sido
revisadas.

9
3. VALIDACIÓN DE PRODUCTOS

3.1. Revisión general de productos

3.1.1. Libretas de campo

Revisar que contengan la información registrada en campo, revisando uno a uno los formularios
para cada tema desarrollado (maderable, no maderable, carbono, fauna, otro)

La revisión se realiza en lo posible al llegar la brigada a la ciudad principal y lo debe realizar un


encargado del Inventario en BPP del Gobierno Regional o el que éste designe.

Al revisar los formularios y encontrar información faltante, incompleta o ilegible se debe consultar
al jefe de brigada y especialista encargado del tema desarrollado a algún material de apoyo
empleado para el registro de la información como libretas de campo, fotografías, información del
GPS u otro que pueda completar los datos no registrados en la libreta.

Considérese lo manifestado por Acuña E. (2008), adaptado por Menacho (2019), indicando que el
impacto de valores faltantes puede requerir métodos sofisticados para la imputación de datos
entre el 5 al 20% de valores faltantes y que en el caso de superar el 20% perjudica las
interpretaciones. En tal sentido, no deberá admitirse una libreta de campo que posea un formulario
con información faltante que supere el 20% de datos y que estos vacíos sean injustificados o se
evidencien que se generaron por descuido del evaluador.

El rechazo de un formulario conllevará a no admitir la UM y se recomendará un reingreso a la UM


para realizar la evaluación del tema observado y rellenar adecuadamente el formulario de campo,
concluida esta etapa y realizando nuevamente la revisión señalada en este punto y de encontrarla
conforme o subsanada, esta UM será admitida continuando con el proceso.

3.1.2. Información digital de equipos

A la llegada de la brigada a la ciudad principal se debe solicitar toda la información cruda registrada
en el receptor GPS, cámaras fotográficas, Registradores Portátiles de datos (de haberlos empleado)
u otros instrumentos empleados.

Se debe contar con memorias externas con suficiente capacidad para poder almacenar toda la
información. Esta información será analizada una vez que la brigada haya culminado su trabajo post
campo entregando el informe del levantamiento de datos de campo, la carpeta estructurada por
temáticas de los registros fotográficos y del GPS y la base de datos digital con los datos de campo.

3.1.3. Otro material

De existir cartas, manifestaciones o actas suscritas con poblaciones o autoridades locales, éstas se
deberán mostrar y el representante del Gobierno Regional deberá de revisar su contenido y sacar
copia a la misma, con la finalidad de ser revisada con el producto a entregar.

3.2. Análisis del contenido de productos

3.2.1. Información espacial, tiempo y archivo fotográfico

10
Se revisará la ruta seguida por la brigada desde la ciudad principal hasta la unidad de muestreo, la
instalación y evaluación de la parcela, posterior a ello su desplazamiento hacia otro punto y así
tantas veces se tengan UM levantadas por la misma brigada y correspondan a dicho producto.

Con la información del track o ruta se coteja el desplazamiento y tiempo que tomó la brigada por
tramo y que éste corresponda al declarado en el informe, debiendo coincidir el medio de
transporte y tiempo con la velocidad del track. Además, de la revisión fotográfica, se debe
corroborar si existe el registro fotográfico o video correspondiente en cada punto de paso de la
brigada o dificultad declarada en el informe.

3.2.2. Tendencia del registro de datos y tiempo de ejecución

a. Veracidad de la información del GPS

Se debe revisar que el track provenga de un trabajo de campo, para lo cual deberá revisarse
los datos contenidos en propiedades del track, pudiendo evidenciar información a detalle
referente a velocidad del tramo y tiempo de tramo. En los casos que el track es dibujado en
gabinete, los datos de velocidad y tiempo se mantienen vacíos en la tabla de propiedades.

Figura 1: Track de campo

Figura 2: Track dibujado

11
Figura 3: Track de campo y track dibujado

Figura 4: Evidencia de track dibujado (Eje Norte)

Al evidenciar un track dibujado o que fue completado en gabinete, será motivo para
solicitar los descargos correspondientes al jefe de brigada, ya que demostraría que no se
ejecutó el trabajo de campo.

Otra revisión recomendada es para las fotografías de la pantalla de los satélites y


coordenadas del receptor GPS, ésta debe coincidir o variar en muy pocos metros respecto a
las coordenadas UTM declaradas en los formularios de campo y guardadas como waypoints
en el GPS.

Adicionalmente se debe revisar el track del GPS del jefe de brigada y del especialista en
fauna silvestre (Cuando el inventario contemple fauna silvestre), ambas rutas de la parcela
deben ser similares o coincidir dentro de las dimensiones de cada sub parcela. De encontrar
trazos diferentes, discrepantes o con otra orientación y no tener sustento en el informe de
campo, se procederá a realizar la consulta a ambos especialistas y de aún persistir las
incongruencias se procederá a recomendar un control frio.

12
Figura 5: Foto de pantalla de satélites y coordenadas respecto a libreta de campo. (Ejemplo INF)

Si la ubicación del punto de referencia excede los 20 m, se tendrá que consultar al jefe de
brigada cual sería el motivo de dicha diferencia (entre coordenada de pantalla de GPS en
campo y la consignada en el waypoint y/o libreta de campo. De encontrar inconsistencias y
que este tipo de hallazgo se repita en otros puntos de referencia, será motivo para priorizar
un ingreso a campo para un control frio.

b. Alineación y declinación

El track que muestra la instalación y evaluación de la UM debe demostrar que se empleó la


declinación magnética establecida para la fecha de evaluación y ubicación, además del
tiempo incurrido en las evaluaciones.

Para la revisión de los tracks, se procederá a importar los datos del GPS y abrirlos en
programas como Base Camp, Google Earth, Arc Gis u otro programa que permita visualizar
el recorrido de la brigada.
Los criterios de revisión serán los siguientes:

 La revisión del eje del track para las subparcelas A (Norte), B (Este), C (Sur) y D (Oeste)
deben corresponder a los ejes cardinales con orientaciones 0, 90, 180 y 270° respecto al
Norte Verdadero. Con ello se verificará que se empleó la declinación magnética en
campo para la corrección de la orientación respecto al Norte Magnético. Puede existir
desviación de 5° por cada 50 m del eje.

 La ubicación del punto central, los puntos de inicio y final de cada sub parcela deben
tener un error que no supere los 20 m. (En Proceso de Convergencia, se estimaron

13
márgenes de error de ubicación entre 0 a 20 m principalmente en tres trabajos de
campo con 90 repeticiones en cada caso)

Como resultado de la evaluación, se procederá a clasificar la instalación de la parcela como


aparentemente correcta o como instalación deficiente, recomendando una visita a campo
para ejecutar un chequeo frio.

Figura 5: Track con ejes supuestamente correctos (Ejemplo INF)

Figura 6: Track con ejes desviados (Ejemplo INF)

14
c. Número de registros y tiempo de evaluación

Para esta revisión se procede a cargar la información en Base Camp, Google Earth, Arc Gis u
otro programa que permita visualizar el recorrido de la brigada, el tiempo de
desplazamiento y la cobertura. Además, se debe tener la base de datos proporcionada por
cada especialista, se deben preparar tablas dinámicas para observar:

 Número de individuos por Unidad de Registro


 Tiempo de demora en cada Unidad de Registro.
 Elaborar un gráfico de tendencia de Número de Individuos Vs Tiempo y de variables
cuantitativas de DAP y alturas. (Tiempo Vs Datos)

Los criterios de evaluación serán los siguientes:

 Si existe cobertura y se evidencia que conforme pasa el tiempo de evaluación por día va
disminuyendo el número de individuos se considerará un indicio que la brigada dejó
individuos sin evaluar, procediendo a recomendar su verificación de campo mediante
chequeo en frío.

 Del mismo modo, de existir una tendencia a sólo escribir un rango de diámetros o
alturas similares, no colocar dos decimales y un decimas respectivamente en los
formatos de campo respecto al avance diario (tiempo), se presumirá que la evaluación
se realizó muy rápido sin aplicar los criterios necesarios para la toma de datos,
procediendo a recomendar su verificación de campo mediante chequeo en frío.

El resultado de esta revisión, dará indicios de haber realizado el trabajo de manera


adecuada, procediendo con los siguientes pasos del proceso de revisión y posterior limpieza
de datos, caso contrario se recomendará un control frio, cuyo resultado puede ser
favorable, continuando con el proceso o negativo, rechazando la UM.

3.2.3. Correlación entre registros de botánica y forestal

Los datos de campo, tanto en la libreta forestal como en la libreta botánica deben coincidir, en
cantidad de especies y registro de individuos. De no coincidir el 20% de los datos, se recomendará
rechazar la UM y recomendar su reevaluación.

Si existe cobertura y nuevas especies registradas en las libretas de campo, pero no se tiene colectas
para estas nuevas especies, se revisará si existe una tendencia a colectar menor cantidad de
especies conforme transcurre el día de levantamiento de datos, considerándose un indicio que la
brigada dejó árboles sin colectar debido a ganar tiempo en el avance, pero perjudicando la calidad
de la información, procediendo a recomendar su verificación de campo mediante chequeo en frío.

3.2.4. UM inaccesibles

En el caso de inaccesibilidad por conflicto social, se analizarán los medios probatorios


proporcionados por el jefe de brigada y se decidirá si son válidos, para tal fin se procederá a realizar
las consultas del caso con otros representantes del gobierno regional o autoridades en los sectores
de conflicto, procediendo a validar la información proporcionada por el jefe de brigada.

Sin embargo, existirán casos en los cuales no se tienen los suficientes medios probatorios, ya que la
población local se negó a suscribir actas, se tuvo una zona de convulsión por narcotráfico o

15
terrorismo y la brigada no pudo arriesgarse a tomar la información audiovisual correspondiente.
Para tales casos se procederá a realizar las indagaciones correspondientes para confirmar o no la
inaccesibilidad por conflicto social.

En el caso de inaccesibilidad por barrera fisiográfica, el jefe de brigada debe proporcionar todos los
medios audiovisuales que confirmen la peligrosidad del ingreso originada por pendientes
pronunciadas, zonas rocosas y resbalosas, inundaciones u otros identificados y que
verdaderamente generen una barrera para el acceso de la brigada.

Cabe resaltar, que la brigada debe encontrar rutas alternas de ingreso para la evaluación de la UM,
de no poseerlas por falta de criterio o dejadez de la brigada o se verifica que el sector no se tuvo los
peligros advertidos (consulta a autoridades o personal del Gobierno Regional), no se considerará
válida la justificación de la inaccesibilidad y se recomendará su reingreso par evaluación.

16
4. CONCEPTO DE BASE DE DATOS
Los datos generados en campo deben ser almacenados en archivos digitales para su tratamiento y
posterior procesamiento, que conducirá al análisis de la información generada. Las aplicaciones
empleadas para almacenar los son de lo más variadas, siendo el Excel una de las más usadas; sin
embargo, el uso de sistemas de gestión de base de datos es preferible porque permite una mejor
gestión de los datos, como es el acceso a los datos y el uso más eficiente de la memoria de la
computadora.

Por esta razón, a continuación se hará una breve descripción de algunos términos usados en
informática.

4.1. Dato

Es la representación simbólica de un atributo o variable (cualitativa o cuantitativa), expresada en


texto, números, gráficos, puntos, gestos, entre otros, que describen una situación o hecho del
mundo real. Para que éstos sean útiles, deben relacionarse entre sí.

4.2. Información

Es el conjunto de datos agrupados y relacionados para transmitir un significado, con el propósito de


reducir la incertidumbre sobre una situación o hecho específico del mundo real, facilitando la toma
de decisiones y la resolución de problemas.

La información unida a la experiencia y valores, genera conocimiento, proceso en el que se realiza la


comparación con otros elementos, permite la búsqueda de conexiones o relaciones, la predicción
consecuencias y además realizar el intercambio de experiencias con otros portadores de
conocimiento.

4.3. Base de datos

Una base de datos es un conjunto de datos relacionados entre sí y almacenados sistemáticamente


para su posterior uso.

4.4. Sistema de gestión de base de datos

Un Sistema de Gestión de Bases de Datos (SGBD) consiste en una colección de datos


interrelacionados y un conjunto de programas para acceder a los mismos. En inglés DBMS (Data Base
Management System).

Un SGBD permite el almacenamiento, manipulación y consulta de datos pertenecientes a una base


de datos organizada en uno o varios ficheros.

En el modelo más extendido (base de datos relacional) la base de datos consiste en un conjunto de
tablas entre las que se establecen relaciones.

A pesar de sus semejanzas debido a que ambos manejan conjuntos de tablas, existen una serie de
diferencias fundamentales entre un SGBD y un programa de hoja de cálculo. La principal es que un
SGBD permite:

17
 Que el método de almacenamiento y el programa que gestiona los datos (servidor) son
independientes del programa desde el que se realizan las consultas (cliente).
 Realizar consultas complejas.
 El acceso a la vez, de múltiples usuarios autorizados para el acceso a los datos, garantizando la
ausencia de problemas de seguridad o integridad.

Algunos ejemplos de sistemas de gestión de base de datos son: Access, MySQL, SQLite, PostGres,
entre otros.

4.5. Estructura de una base de datos

4.5.1. Tipos de base de datos

El modelo más utilizado actualmente corresponde al de bases de datos relacionales, que consiste
en un conjunto de tablas, similares a las tablas de una hoja de cálculo, formadas por filas (registros)
y columnas (campos).

Tabla: Unidad de Muestreo (UM)

Campos

N° UM Departamento X-UTM Y-UTM Altitud


1 SB-0143 Loreto 151500 9522880 134
Registros
2 SB-0248 Loreto 363600 9563280 185

Tabla: árboles

N° UM Nombre científico DAP HF HT


1 SB-0143 Guatteria elata 32.4 12.4 15.3
2 SB-0143 Hura crepitans 53.2 18.2 23.8

Los registros representan cada uno de los objetos descritos en la tabla y los campos los atributos
(variables de cualquier tipo) de los objetos.

En el ejemplo se muestran dos tablas relacionadas entre sí. La tabla Unidad Muestral contiene la
ubicación geográfica de cada una de las Unidades de Muestreo o parcela evaluada y la tabla
Árboles, los datos de los árboles registrados en una de las Unidades de Muestreo.

De esta manera se evita que para cada árbol se tenga que ingresar la ubicación geográfica de la
Unidad de Muestreo, lo cual demandaría una mayor consumo de memoria, que es un recurso
limitado y además si tuviese que hacerse un cambio en el nombre de la unidad político-
administrativa, tendrían que modificarse todos los registros de la tabla Árboles.

En el modelo relacional de base de datos, las tablas comparten algún campo entre ellas. Estos
campos compartidos van a servir para establecer relaciones entre las tablas que permitan consultas

18
complejas. En el ejemplo, ambas tablas tienen un elemento común (campo) mediante el cual se
relacionan, que corresponde al campo UM.

Las relaciones que se establecen entre los diferentes elementos de dos tablas en una base de datos
relacional pueden ser de tres tipos:

 Uno a uno (1:1)


 Uno a varios (1:∞)
 Varios a varios (∞:∞)

Para el caso del ejemplo, la relación de la tabla Unidad de Muestreo con la tabla Árboles es de uno
a varios, porque cada Unidad de Muestreo tendrá varios árboles registrados.

El siguiente gráfico, muestra el ejemplo de las relaciones en una base de datos real, más compleja.

19
5. REVISIÓN DE DATOS EN GABINETE
Una vez realizada la revisión de productos, las libretas de campo y las bases de datos pasan a una
etapa de prueba de consistencia de los registros realizados en campo.
El primer paso es revisar la base de datos entregada por las brigadas para detectar posibles
inconsistencias que pueden tener dos fuentes de error:
(1) Un registro incorrecto de datos en el campo
(2) Una digitación incorrecta en la base de datos

A este proceso se le denomina limpieza de datos (data cleansing en inglés) y es la etapa previa al
procesamiento de los datos almacenados en la base de datos y su posterior análisis estadístico.

En algunos casos, es posible recuperar los datos originales si es que hubo una mala transcripción a la
base de datos. Pero en otros, como la omisión del registro de alguna variable genera datos faltantes
(missing data en inglés) o el registro de un valor fuera del rango permitido, que son denominados
valores atípicos (outliers en inglés), la situación es más compleja y para ello, se han desarrollado
diferentes métodos para su recuperación.

5.1. Problemas frecuentes encontrados en una base de datos

En el proceso de recolección de datos existen varias fuentes de error. Como se mencionó


anteriormente, algunas de ellas son generadas al momento de registrar los datos en el campo y otras
al momento de transcribirlos a una base de datos.

En el campo:

a) Omisión del registro de algunas variables: lo cual genera la existencia de campos vacíos. Esto
suele ocurrir por descuido en el campo, al no haber realizado el registro en la libreta. Por ello, es
importante que el jefe de brigada se dé el tiempo suficiente al terminar la jornada de trabajo en
revisar las libretas de campo para ver si existe alguna omisión en el llenado de la libreta para que
se pueda solucionar el problema in situ.

b) Deficiente ortografía: que origina que se confundan algunos números como el 3 y 5, 4 y 9 o 1 y 7.

c) Valor numérico fuera del rango permitido: que se produce a veces por la inversión de columnas
durante el registro de datos. Por ejemplo, la altura de fuste con la altura total. Otro ejemplo es el
registro de árboles con un DAP menor del permitido en algunas sub unidades de muestreo.

d) Número de dígitos de coordenadas incorrecto: coordenadas X con un número diferente a 6


dígitos o coordenadas Y con un número diferente a 7 dígitos.

e) Omisión de puntos decimales: que ocurre al momento de hacer la anotación en la libreta de


campo, lo cual a veces produce grandes errores de cálculo.

f) Selección de una opción inexistente: sobre todo en variables cualitativas que deben ser
seleccionadas a partir de un listado de opciones.

g) Relación DAP con Alturas de fuste y total desproporcionadas: valores de diámetro muy bajos
para alturas con valores muy altos o viceversa, generando datos atípicos u outliers.

20
h) Alturas de fuste mayores que alturas totales: es un error frecuente que ocurre mayormente
durante la anotación en la libreta de campo, sin embargo, a veces suele ocurrir en el proceso de
digitación en la base de datos.

i) Registro de fustales en sub unidades de muestreo donde no corresponde: también suelen


presentarse casos en los que se miden árboles con DAP menor a 30 cm, en sub unidades de
muestreo (SUM) donde solo se deben medir árboles (DAP ≥ 30 cm). Es decir, que los fustales
SOLO DEBEN REGISTRARSE en las SUM 5 y 6.

j) Falta de documentación de por qué no se hicieron registros en algunas SUM: existen dos
posibilidades, (1) no había individuos para medir o (2) la SUM no fue muestreada por alguna
razón. Esta omisión, afectará el procesamiento de los datos.

k) Inconsistencia de variables cualitativas: por ejemplo, registros de árboles vivos con grado de
descomposición podrido, o código correspondiente a un árbol para un registro de palmeras

l) Incorrecta identificación o escritura de nombres científicos: que incluye varios casos como por
ejemplo,

- Especies que no se distribuyen en el Perú como Piptadeniastrum africana, propia de Camerún,


Congo y Gabón.

- Escritura errónea de un nombre científico que genera la existencia de una nueva especie cuando
en realidad se escribe de otra manera, como es el caso de la escritura de Hyeronima sp. en vez
de Hieronyma sp.

- El uso de un nombre no válido, desactualizado o su sinonimia, como es el caso de Bombax


munguba en vez de Pseudobombax munguba.

En la transcripción digital de las libretas de campo:

a) Deficiente ortografía o digitación: suele ocurrir que a pesar de estar bien escrito un texto o
número en la libreta de campo, al momento de hacer la transcripción a la base de datos, se
comete el error ortográfico o de digitación.

b) Ausencia de signos de puntuación: aunque es menos frecuente, a veces se omite la


digitación de signos de puntuación para separar los elementos de una oración, haciendo muy
difícil la lectura de un campo de texto.

c) Mala escritura de nombres científicos: a pesar que ya se mencionó en el primer acápite, se


enfatiza que la correcta escritura de un nombre científico permitirá extraerlo correctamente de la
tabla maestra de las especies de árboles o fauna, evitando de esta manera que se generen nuevos
nombres científicos.

d) Omisión de digitación de puntos decimales: también es posible encontrar la omisión de la


digitación de puntos decimales, lo cual trae como consecuencia la escritura de valores atípicos
que generan un tiempo extra en la verificación en las libretas de campo.

e) Transcripción de filas o columnas equivocadas: también se presenta la transcripción de


datos invirtiendo el orden de filas o columnas.

21
Cuando se identifican inconsistencias en los registros de una base de datos, se procede a hacer la
comparación con las libretas de campo para determinar si ha habido una mala digitación. Este es el
caso más sencillo de resolver; sin embargo, si los errores son continuos, se pierde mucho tiempo en
las comparaciones con las libretas de campo.
Sin embargo, si los errores provienen de la toma de datos en campo, la situación puede tornarse
compleja. En algunos casos, los datos de campo mal registrados pueden ser corregidos en gabinete
como es el caso de una mala escritura de un nombre científico, pero en otros casos, el registro
erróneo es irrecuperable como es el caso de las variables cuantitativas como el DAP y las alturas.
Para ello existen diferentes herramientas o técnicas que permiten corregir errores de digitación o
estimar algunos valores faltantes o atípicos.

5.2. Herramientas usadas en la limpieza de datos

5.2.1.Errores en nombres científicos

La importancia de trabajar con sistemas de gestión de bases de datos, es que estas cuentan con
tablas maestras que almacenan la mayoría de las especies posibles de encontrar en una región o
país. El procedimiento para determinar errores consiste en realizar una comparación (match)
entre la especie registrada en el inventario y aquellas almacenadas en la tabla maestra de
especies.

Estas tablas maestras deben ser revisadas periódicamente para incluir actualizaciones, sobre todo
en una época en la que las pruebas de ADN están generando continuos cambios en las relaciones
filogenéticas de las especies.

La comparación puede realizarse utilizando códigos de algunas aplicaciones estadísticas como R o


simplemente usando el Excel, como en los ejemplos siguientes:

Caso 1. Nombres desactualizados

El nombre actualizado de Ficus guianensis es Ficus americana.

Caso 2. Escritura errada

El nombre correcto es Aspidosperma macrocarpon y no Aspidosperma macrocarpum.

22
Caso 3. Especies inexistentes en el país

Inclusión de una especie que no se distribuye en el Perú, sino en países africanos como Camerún,
Congo y Gabón.

Caso 4. Errores en las reglas de nomenclatura científica

 Cuando se hace referencia a un género, el epíteto referido a la especie debe escribirse seguido
de un punto. Por ejemplo: Abarema sp. o Cedrela sp.

 La primera letra del género siempre debe ir en mayúsculas y todas las letras de la especie en
minúsculas. Por ejemplo: Naucleopsis glabra o Eschweilera juruensis.

Para ello, se disponen de algunas herramientas de consulta en la web, que permiten conocer las
últimas actualizaciones de los nombres científicos y pueden ser una referencia de gran ayuda para
resolver los problemas de sinonimia, desactualización o distribución en otros países, e inclusive
continentes.

Debe entenderse que estas solo son herramientas de consulta que


para nada reemplazan el trabajo que debe realizar un botánico, que
debe estar sustentado con la colecta botánica.

Dos enlaces de estas páginas son:

a) www.tropicos.org

23
En el ejemplo, se ha ingresado el género Abarema como criterio de búsqueda y luego de hacer clic
en el botón Search, se desplegará un listado de todas las especies que corresponden a dicho
género.

Al seleccionar alguna de las especies, por ejemplo Abarema acreana, nos proporciona
información más detallada sobre dicha especie:

24
Si se selecciona la pestaña Specimens, se mostrarán los resultados de los registros de distribución
de la especie consultada.

b) http://tnrs.iplantcollaborative.org/TNRSapp.html

Esta página permite ingresar un listado de hasta 5,000 especies desde un archivo en Excel
simplemente con la opción Copiar y Pegar a la ventana Enter scientific names to check, usando
la pestaña Enter list. Luego, hacer clic en la opción Submit list.

A continuación, se desplegará el resultado de la búsqueda, con las respuestas a cada nombre


científico consultado:

25
Ejercicio 1

A partir de los archivos proporcionados, se realizará una revisión de los nombres científicos
ingresados, de acuerdo con una serie de pasos:

1. Insertar 2 columnas al lado del nombre científico, para hacer la búsqueda en la primera
columna (COMP1) y la confirmación en la segunda (COMP2).

2. Realizar la comparación entre la base de datos (Ejercicio-01.xlsx) y la tabla maestra de


especies (Matching_species_list_flora.xlsx), usando algunas funciones en Excel:

 =BUSCARV(G2,archivo de comparación,1,0)
 =SI(G2=H2,”OK”,”ERROR”)

En el gráfico puede observarse en la columna H que hay nombres coinciden, pero otros
aparecen con las siglas #N/D, que significa que dicho nombre científico no está disponible en
la tabla maestra.

En la columna I se muestra OK si la comparación entre las columnas G y H es igual, o #N/D si


no coinciden.

3. Para verificar si los nombres científicos son correctos, es decir, si están bien escritos,
actualizados o se distribuyen en nuestro país, se puede usar la herramienta proporcionada
por la aplicación TNRS, ingresando los nombres científicos aparentemente incorrectos para
realizar la consulta, como se muestra en un gráfico anterior.

Dicho gráfico muestra que 3 nombres científicos están aceptados, 3 con correcciones y 2 son
sinónimos, pero el nombre usado no es el aceptado.

26
4. Por último, Piptadeniastrum africana, que además está mal escrito, porque debió haberse
ingresado como P. africanum nos da un indicio de su distribución. Para ello, puede usarse la
página de tropicos.org para hacer la búsqueda correspondiente y confirmar si dicha especie
se distribuye realmente en el Perú.

Se verá que dicha especie se distribuye en Camerún, Congo, Gabón, República Central
Africana, Ghana y Guinea.

Por tanto, este registro deberá indicarse que es una especie no identificada (ZZ.NN)

5. Finalmente, se hacen las correcciones respectivas a los nombres científicos y se habrán


corregido los errores.

Ejercicio 2

A partir del archivo proporcionado (Ejercicio-02.xlsx), se realizará una revisión de las alturas de
fuste (comercial) y las alturas totales para detectar inconsistencias.

1. Del mismo modo que en el ejercicio anterior, se creará 1 columna para hacer la comparación,
usando la función: =SI(R2<=S2,”OK”,”ERROR”).

2. Como resultado se obtendrá un mensaje de error en la columna T, de aquellos registros que


no cumplan la condición de que la altura comercial (o de fuste) sea menor que la altura total.
EL número de registros obtenido es 127.

A partir de este resultado, se debe tomar una decisión que, en el presente caso, será invertir
el orden de las columnas con error.

27
Ejercicio 3

Utilizando el mismo archivo del ejercicio anterior (Ejercicio-02.xlsx), se procederá a identificar si


existen registros de fustales en SUM que no correspondan. Es decir, se buscarán aquellos
registros que tengan un DAP menor de 30 cm en subunidades muestrales que no sean
exclusivamente las SUM 5 y 6.

1. Se realizará el filtro de aquellas SUM que no sean 5 ni 6.

Se espera que los registros en las SUM de la 1 a la 4 y de 7 a la 10, no existan DAP menores a
30 cm, porque solo se deben evaluar árboles y no fustales en ellas.

2. A continuación, se inserta una columna al lado derecho del DAP para establecer la sentencia
condicional: =SI(Q2>=30,”OK”,”ERROR”).

Esto significa que en las celdas filtradas (SUM 1 a 4 y 7 a 10), los DAP solo deben ser mayores o
iguales a 30 cm, de lo contrario se mostrará ERROR en la columna creada.

28
Si se filtra la columna creada para que muestre solo aquellos registros que no cumplen con la
condición (ERROR), se observará que estos son 3189, que es un número bastante grande de
registros, equivalente al 19.36 % del total de registros.

La decisión es este caso es contundente, estos registros deben eliminarse de la base de datos
porque no cumplen con los requisitos del diseño de muestreo del inventario.

5.2.2. Datos faltantes

Es frecuente encontrar datos que no fueron registrados en el campo, por tanto, en la base de
datos se encontrarán celdas vacías. Se les denomina missing data en inglés.

Dependiendo de la aplicación que utilicemos, estos datos faltantes son considerados con las siglas
NA (del inglés Not Available o No Disponible), en otros casos, estos campos vacíos son llenados
por asteriscos.

Los analistas de datos han establecido una escala del impacto de los datos faltantes sobre el
análisis de los mismos.

Datos faltantes Denominación


Menor del 1 % Trivial
Entre 1 a menos del 5 % Manejable
Entre 5 a menos del 20 % Requiere métodos sofisticados
20 % a más Perjudica las interpretaciones

Por ello, existen algunas alternativas frente a la existencia de datos faltantes, estas son:

Es la opción más sencilla y consiste en eliminar las observaciones o


ELIMINAR variables que tengan los datos perdidos. Solamente debe realizarse si el
1
DATOS porcentaje de observaciones a eliminar es pequeño.

Reemplazar el valor perdido con un valor conocido. Variedad de métodos,


IMPUTARD desde opciones sencillas (reemplazar por la media o mediana) hasta otras
2 ATOS más complejas (modelos de regresión).

En algunas situaciones los procedimientos de Máxima Verosimilitud que


NO HACER
3 usan variantes del algoritmo EM (Expectation-Maximization) pueden
NADA manejar la estimación de parámetros en presencia de valores faltantes.

29
5.2.3. Datos atípicos

Son aquellos valores que escapan de los rangos esperados para una variable. Por ejemplo, un DAP
muy pequeño para una Altura total muy grande o viceversa. A estos datos se les denomina
outliers en inglés.

5.2.4. Imputación de datos

Se entiende por imputación de datos, la sustitución de observaciones ya sea porque se carece de


datos (missing values) o porque se detecta que algunos de valores recolectados no se
corresponden con el comportamiento esperado (outliers).

En esta situación, es común que se desee reponer las observaciones y se decida aplicar algún
método de sustitución de datos y de imputación. No obstante, utilizar algún procedimiento
inapropiado puede generar más problemas de los que resuelve, introduciendo sesgos en el valor
de los estimadores y en su error estándar, al tiempo que podría distorsionar la potencia de las
pruebas de hipótesis, lo que sugiere reflexionar acerca de la mejor manera de obtener
estimadores que generen inferencia válida a partir de datos imputados.

Medina y Galván (2007) presentan un tratamiento bastante conciso y práctico de los diferentes
métodos de imputación de datos con resultados comparativos de su uso.

En el presente curso se enfatizará la imputación de datos usando el método de reemplazo por la


media y los modelos de regresión. Los procedimientos de máxima verosimilitud se explican en la
cita mostrada al pie de página1.

a) Medios usados para el análisis e imputación de datos

Existe un gran número de aplicaciones para realizar el análisis preliminar de los datos con el fin de
conocer cuáles son los patrones de comportamiento encontrados. Los paquetes estadísticos como
SPSS, Minitab, Stata, Statgraphics, MatLab e Infostat, entre otros tienen un costo que muchas
veces no está al alcance de la economía del investigador.

Sin embargo, se han desarrollado diferentes aplicaciones de libre acceso y sin costo alguno, como
es el caso del ampliamente utilizado R, y su interfaz RStudio. Puede ser un poco complicado al
principio porque utiliza un sistema de códigos a los cuales no está acostumbrado el usuario
común, pero ofrece un sinnúmero de posibilidades y puede adaptarse a cualquier diseño
experimental que se utilice.

Cada aplicación tiene sus ventajas y desventajas y no es propósito en este curso elegir la mejor
opción.

Una de las aplicaciones más usadas por los profesionales y público en general es el Excel, que
cada nueva versión ofrece mejoras en el tratamiento y análisis de datos, que no llegará a
reemplazar a un software estadístico, pero que ayuda mucho a comprender la naturaleza de los
datos recogidos en el trabajo experimental.

1
https://www.seh-lelha.org/que-es-el-metodo-de-estimacion-de-maxima-verosimilitud-y-como-se-interpreta/

30
En el presente manual se utilizará el Excel por ser ampliamente conocido y utilizado por los
participantes y se hará una demostración del uso de dos métodos de imputación simple:

 Imputación por el método de medias


 Imputación por métodos de regresión

b) Imputación simple por el método de medias

Consiste en la sustitución de datos faltantes utilizando promedios y asume que, en una


distribución de probabilidad normal, el promedio de los datos es un buen estimador de las
observaciones omitidas.

En el presente curso se utilizarán los datos de la tabla Ejercicio 3.xlsx después de haber hecho la
limpieza de las alturas comercial y total, invirtiendo los valores de las columnas en donde la
primera variable era mayor que la segunda variable. Sin embargo, en esta tabla no se han
eliminado los fustales que fueron detectados en SUM en las que no debieron ser medidos, debido
a que proporciona un mayor número de observaciones del DAP de las especies registradas.

Ejercicio 4

Se utilizará el archivo proporcionado (Ejercicio-03.xlsx) con la finalidad de escoger una de las


especies registradas en el inventario.

1. El primer paso es realizar un filtro por el campo Nombre científico y luego de ello, seleccionar
la especie Otoba parvifolia. Esta especie cuenta con 206 registros.

2. A continuación, solo se mostrarán los registros de la especie seleccionada y se copiarán a una


nueva hoja de trabajo, los siguientes campos: Nombre científico, dap y altura total, de modo
que quede una hoja de cálculo con las siguientes columnas:

31
3. Para esta práctica demostrativa, se va a suponer que existen 20 datos de altura total faltantes,
los cuales han sido seleccionados al azar del total de 206 registros. Esto se hizo con la función
de Excel: =ALEATORIO.ENTRE(1,206). Como en cada computadora los resultados serán
diferentes, se debe asumir que los registros elegidos al azar son los siguientes:

N° Registro N° Registro
1 5 11 103
2 39 12 114
3 54 13 119
4 56 14 127
5 57 15 153
6 62 16 156
7 67 17 169
8 74 18 187
9 77 19 191
10 97 20 205
4. A continuación, crear una columna que se llamará HT-media donde se copiarán los datos de la
columna altura total y después se borrarán los registros proporcionados en la tabla de
números al azar previa.

N° Nombre científico dap altura total HT2-media


1 Otoba parvifolia 36 16 16
2 Otoba parvifolia 43 18 18
3 Otoba parvifolia 35 15 15
4 Otoba parvifolia 31 14 14
5 Otoba parvifolia 16 12  
6 Otoba parvifolia 31 15 15
7 Otoba parvifolia 11 10 10
8 Otoba parvifolia 42 17 17

5. La imputación por medias implica que se calculará el promedio de toda la columna HT2-media,
sin los 20 datos faltantes, y será este valor resultante el que se reemplazará en cada una de las
celdas vacías.

El promedio obtenido es de 17.2 y será este valor el que se reemplace en cada una de las
celdas sin datos y de esta manera, se habrá completado toda la tabla con los datos imputados.

N° Nombre científico dap altura total HT2-media


1 Otoba parvifolia 36 16 16
2 Otoba parvifolia 43 18 18
3 Otoba parvifolia 35 15 15

32
4 Otoba parvifolia 31 14 14
5 Otoba parvifolia 16 12 17.2
6 Otoba parvifolia 31 15 15

c) Imputación simple por métodos de regresión

Consiste en la eliminación de registros con datos incompletos, ajustando una ecuación de


regresión para predecir los valores de Y (altura total, en este caso), que servirán para sustituir los
valores que faltan, de modo que el valor de Y se construye como una media condicionada de las
covariables X (DAP, en este caso).

Todas las aplicaciones estadísticas permiten aplicar diferentes métodos de regresión. Para el
presente ejercicio, se utilizarán aquellas disponibles en Excel. Para ello, se utilizarán 3 de estos
modelos: regresión lineal, regresión cuadrática y regresión logarítmica.

Regresión lineal (RL)

Los pasos a seguir son los siguientes:

1. Igual que en el caso anterior, se crearán 3 columnas, una para cada modelo regresión que se
va a ajustar. De modo que los encabezados de la tabla quedarán de la siguiente manera:

N° Nombre científico dap altura total HT2-media HT3-RL HT4-RC HT5-Rlog


1 Otoba parvifolia 36 16 16 16 16 16
2 Otoba parvifolia 43 18 18 18 18 18
3 Otoba parvifolia 35 15 15 15 15 15
4 Otoba parvifolia 31 14 14 14 14 14
5 Otoba parvifolia 16 12 17.2      
6 Otoba parvifolia 31 15 15 15 15 15

2. Para ajustar el modelo de regresión lineal, se debe generar un gráfico seleccionando desde la
celda C1 hasta la celda D207 y luego ir a la barra de menú, seleccionar Insertar y en la sección
gráficos, seleccionar gráficos de dispersión.

3. Dentro de los diferentes gráficos de dispersión, seleccionar el primero.

33
4. Y se muestra el gráfico siguiente, que puede ser editado con título principal y en sus ejes.

Regresión lineal
35

30

25
Altura total

20

15

10

0
0 20 40 60 80 100 120
DAP

5. Al ubicarse en la zona de puntos y hacer clic derecho, se muestra una caja de diálogo con
diferentes opciones. De ellas, seleccionar la opción Línea de tendencia, y aparecerá al lado
derecho un conjunto de opciones para elegir.

Para este caso, elegir Lineal y hacer clic en las casillas Presentar ecuación en el gráfico y
Presentar el valor R cuadrado en el gráfico. De esta manera obtendremos lo siguiente:

Regresión lineal
35

30
f(x) = 0.2 x + 9.75
25 R² = 0.52
Altura total

20

15

10

0
0 20 40 60 80 100 120
DAP

6. Una vez obtenida la ecuación de regresión lineal, se puede predecir el valor de la variable Y
(altura total) para cada uno de los valores faltantes en la tabla de datos, escribiendo
simplemente la ecuación en la celda correspondiente, obteniendo así la siguiente pantalla:

34
N° Nombre científico dap altura total HT2-media HT3-RL
1 Otoba parvifolia 36 16 16 16
2 Otoba parvifolia 43 18 18 18
3 Otoba parvifolia 35 15 15 15
4 Otoba parvifolia 31 14 14 14
5 Otoba parvifolia 16 12 17.2 13.0
6 Otoba parvifolia 31 15 15 15

En donde el valor de altura total usando la ecuación de regresión lineal es 13.0 para el registro
5. Resta copiar y pegar la fórmula en las demás celdas vacías. En este caso el valor obtenido es
más cercano al valor real que utilizando la imputación por medias, pero ello no ocurrirá
necesariamente en las celdas vacías restantes.

Regresión cuadrática (RC)

Seguir el mismo procedimiento anterior, seleccionado la opción Polinómica (Grado 2) y se


obtendrá el siguiente gráfico.

Del mismo modo, para predecir el valor de Y (altura total), reemplazar la ecuación de regresión
cuadrática en las celdas vacías.

Regresión cuadrática
35

30

25
ALtura total

20 f(x) = − 0 x² + 0.49 x + 4.56


R² = 0.62
15

10

0
0 20 40 60 80 100 120
DAP

Regresión logarítmica (Rlog)

Y finalmente, continuar con la opción logarítmica, para obtener el siguiente gráfico.

35
Regresión logarítmica
35

30

25
f(x) = 7.46 ln(x) − 8.8
Altura total

20 R² = 0.61

15

10

0
0 20 40 60 80 100 120
DAP

Se puede continuar con los otros modelos de regresión (exponencial y potencial), pero sus valores
del coeficiente de determinación (R cuadrado) 2 son bajos.

La tabla siguiente muestra los valores de R cuadrado para cada modelo de regresión y su
respectiva ecuación.

La ecuación de regresión cuadrática al tener un R 2 relativamente más alto, significa que es el


modelo que mejor se ajusta a la variable que se está prediciendo.

Modelo de regresión R cuadrado Ecuación de la regresión


Lineal R² = 0.5195 y = 0.2027x + 9.7506
Exponencial R² = 0.4751 y = 10.104e0.0132x
Logarítmica R² = 0.6113 y = 7.4617ln(x) - 8.8039
Cuadrática R² = 0.6161 y = -0.0033x2 + 0.4923x + 4.5567
Potencial R² = 0.6055 y = 2.8281x0.5042

La siguiente tabla muestra los resultados imputados obtenidos aplicando las diferentes
herramientas de cálculo.

N° Nombre científico dap altura total HT2-media HT3-RL HT4-RC HT5-Rlog


5 Otoba parvifolia 16 12 17.2 13.0 13.3 11.9
39 Otoba parvifolia 16.6 16 17.2 13.1 13.6 12.2
54 Otoba parvifolia 17.5 16 17.2 13.3 14.2 12.6
56 Otoba parvifolia 27.1 18 17.2 15.2 20.3 15.8
57 Otoba parvifolia 19.1 14 17.2 13.6 15.2 13.2
62 Otoba parvifolia 25.5 18 17.2 14.9 19.3 15.4
67 Otoba parvifolia 44 14 17.2 18.7 32.6 19.4
74 Otoba parvifolia 37 16 17.2 17.3 27.3 18.1
77 Otoba parvifolia 28 16 17.2 15.4 20.9 16.1

2
El coeficiente de determinación (R cuadrado) se define como la proporción de la varianza total de la variable explicada por la regresión.
Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que estamos intentando explicar.

36
97 Otoba parvifolia 31 18 17.2 16.0 23.0 16.8
103 Otoba parvifolia 47 22 17.2 19.3 35.0 19.9
114 Otoba parvifolia 37.6 20 17.2 17.4 27.7 18.3
119 Otoba parvifolia 39.2 23 17.2 17.7 28.9 18.6
127 Otoba parvifolia 30.5 17 17.2 15.9 22.6 16.7
153 Otoba parvifolia 22 17 17.2 14.2 17.0 14.3
156 Otoba parvifolia 41 22 17.2 18.1 30.3 18.9
169 Otoba parvifolia 26.2 6 17.2 15.1 19.7 15.6
187 Otoba parvifolia 30 18 17.2 15.8 22.3 16.6
191 Otoba parvifolia 50 25 17.2 19.9 37.4 20.4
205 Otoba parvifolia 22 14 17.2 14.2 17.0 14.3

Por último, analizando los promedios y demás estadísticos para toda la muestra de datos de la
especie Otoba parvifolia, una vez incluidos los datos imputados, puede notarse que las
variaciones no son tan grandes y constituyen al menos para esta especie una alternativa para
recuperar datos perdidos.

Altura Regresión Regresión Regresión


Estadístico Media
original lineal cuadrática logarítmica
Promedio 17.19 17.20 17.07 17.75 17.11
Varianza 23.79 22.13 22.69 29.87 22.85
Desviación estándar 4.88 4.70 4.76 5.47 4.78
Coeficiente de variación 28.38 27.35 27.90 30.79 27.94

Referencias bibliográficas

Medina, F. & Galván, M. 2007. Imputación de datos: teoría y práctica. Santiago de Chile, CEPAL,
División de Estadística y Proyecciones Económicas. (Serie estudios estadísticos y prospectivos,
54). 84 p.

Menacho Chiok, César. 2019. Presentación en Curso "Métodos para la imputación de datos
faltantes". Lima, UNALM.

37

También podría gustarte