Análisis de Datos de Supervivencia - Apuntes de Clase - Noparam - 2019

Universidad Nacional de Rosario
Facultad de Ciencias Económicas y Estadística

Lic. en Estadística
Estimación de funciones y
pruebas no paramétricas
para datos de supervivencia
utilizando R
Material elaborado por la cátedra: Análisis de Datos de Supervivencia
Autoras: Harvey G.; Arnesi N.; Boggio G.
Año: 2019
Estimación de funciones y pruebas no paramétricas para datos de supervivencia utilizando R 2019
Índice
1. Introducción2
2. Presentación del problema2
3. Aspectos específicos del software R3
4. Procedimientos no paramétricos para datos de supervivencia en R6
5. Estimación de la función de supervivencia6
5.1 Método de Kaplan-Meier6
5.2 Método de Nelson-Aalen11
5.3 Método de Tablas de Vida14
6. Estimación de la función hazard a través del método de Nelson-Aalen19
7. Comparación de curvas de supervivencia estimadas23
7.1 Comparación de dos grupos23
7.2 Test log-rank de tendencia27
7.3 Test estratificado28
8. Referencias bibliográficas30
1
1. Introducción
El presente material se elabora con el objetivo de exponer las principales herramientas para llevar a
cabo un análisis de supervivencia básico mediante del software libre R1. Es importante mencionar que
por las características propias de dicho software, en forma permanente se incorporan nuevos
paquetes y opciones; en esta oportunidad se muestra una forma de analizar los datos de supervivencia
pero queda propuesto al alumno explorar otros códigos.
A fin de ejemplificar los distintos procedimientos se presenta el análisis de un problema real.
En cada uno de los análisis realizados se presentan los códigos utilizados junto con una breve
descripción y la correspondiente salida. Además, con el fin de comparar con lo visto durante el
desarrollo de las clases prácticas, se presentan las sentencias y las salidas obtenidas utilizando SAS. Se
sugiere trabajar con el editor R Studio de manera de que resulte más amigable la programación.
2. Presentación del problema

Se cuenta con una base de datos con información de 84 pacientes con enfisema que recibieron
trasplante pulmonar (TP) entre junio de 1994 y marzo de 2012. Se registraron características
demográficas para cada paciente, entre las cuales se destacan:
- Sexo: género del paciente, con niveles: hombre y mujer.
- Edad: edad a la que se realizó el TP, expresada en años.
Además, se registró el Estado clínico de los pacientes el cual indica si fueron trasplantados bajo el
estado de urgencia/emergencia o si lo hicieron en forma electiva.
Como variable respuesta se considera el tiempo transcurrido (expresado en años) desde el TP hasta
el fallecimiento del paciente o hasta la finalización del estudio (Tiempo). La variable que indica si el
paciente falleció o si se trata de una observación censurada se denomina evento y presenta los
códigos 0 para las censuras y 1 para los eventos.
Resulta de interés evaluar el efecto de las variables demográficas mencionadas sobre la

probabilidad de sobrevivir más allá de cierto tiempo excluyendo el primer año pos-trasplante. Los
datos correspondientes se encuentran en un archivo con formato delimitado por comas, bajo el
1R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical
Computing, Vienna, Austria.URL http://www.R-project.org/.
2
nombre EPOC.csv. En la sección siguiente se explica cómo se realiza la lectura y visualización de este
tipo de archivos.
3. Aspectos específicos del software R

R es un lenguaje orientado a objetos, lo que significa que las variables, los datos, las funciones, los
resultados, etc. se guardan en la memoria activa en forma de objetos con nombres específicos. El
usuario puede modificar y manipular estos objetos con diversos operadores (aritméticos, lógicos y
comparativos) y funciones (que son, a su vez, objetos).Los objetos pueden ser creados con el operador
de asignación, el cual se denota con el signo menos (-) y el símbolo de menor (<) o mayor (>),
dependiendo de la dirección en que se asigna el objeto.
En lo referido a la ayuda, el lenguaje R ofrece varios niveles de ayuda y éstas pueden activarse a
través de la línea de comandos o a través del menú Help. A través de la línea de comandos pueden
utilizarse las instrucciones:
 help(“tema”), para obtener ayuda acerca del tópico específico, el inconveniente de

esta instrucción es que hay que colocar exactamente el nombre del tema,
 help.search(“tema”), es más flexible porque realiza una búsqueda del tema en
todas los paquetes instalados.
Un aspecto que debe considerarse cuando se trabaja en R es que el lenguaje diferencia entre las
mayúsculas y las minúsculas, por lo que cada comando u objeto debe ser escrito de manera exacta.
Si se desea incluir un comentario dentro de un código de R, el mismo debe iniciarse con el símbolo
numeral (#). Todo lo que aparece en la línea de comando a la derecha de dicho símbolo es tomado
como un comentario y, por lo tanto, no interfiere en la programación.
3.1. Lectura de datos
En R se pueden leer datos que se encuentren guardados bajo diversos formatos. Por ejemplo, los
datos pueden estar almacenados en una hoja de cálculo Excel, en un archivo de datos de SPSS, en un
archivo de texto, en un archivo donde los datos se encuentran delimitados por espacios o por comas,
entre otros.
3
Los datos de la aplicación se encuentran guardados en un archivo con extensión csv, del inglés
commaseparatedvalues, (EPOC.cvs). Para su lectura y visualización debe ejecutarse el siguiente código.
# Código 3.1
setwd("…:/…/carpeta_de_trabajo")
# establece el directorio de trabajo, donde estarán
# guardados los archivos a utilizar.
Base_EPOC<-read.csv('EPOC.csv')
# lee un conjunto de datos a partir de un
# archivo delimitado por comas y lo guarda en un
# objeto de R bajo el nombre asignado por el
# usuario, en este caso Base_EPOC, guardado en la
# carpeta de trabajo correspondiente.
Base_EPOC # permite visualizar el contenido del objeto

# Base_EPOC, es decir, los datos del archivo.
attach(Base_EPOC) # indica que todas las variables mencionadas

# en los sucesivos códigos se encuentran en
# el objeto Base_EPOC. De no utilizarse esta
# sentencia, cada vez que se nombra una
# variable debería indicarse como:
# Base_EPOC$nombre_variable. Esta función se
# anula con el comando detach(nombre_objeto).
La salida correspondiente a la ejecución de este código es la Salida 3.1.
4
Salida 3.1
Se muestran los primeros 15 valores.
3.2. Instalación y carga de paquetes

Al descargar R, éste incluye características y “paquetes” básicos pero existe una gran cantidad de
paquetes (también llamados librerías) que se deben agregar para poder ejecutar funciones
particulares.
Utilizando el comando library() se obtiene la lista de los paquetes que ya están instalados. Si
no está disponible el paquete que se pretende utilizar, la instalación del mismo puede hacerse de dos
maneras: mediante el menú, siguiendo las instrucciones que se encuentran en: Packages Install, o
bien mediante códigos utilizando el comando:
install.packages("nombre_del_paquete") # no omitir comillas.
Una vez que el paquete está instalado, debe cargarse para poder utilizar sus funciones y datos. Al
igual que la instalación, la carga puede realizarse desde el menú o mediante el comando:
library(nombre_del_paquete)
5
4. Procedimientos no paramétricos para datos de supervivencia

Existen varios paquetes en R que permiten llevar a cabo análisis de supervivencia. Entre los más
ampliamente utilizados se encuentran: survival y KMsurv.
Las rutinas en la librería survival trabajan con objetos construidos usando la función Surv, la
cual crea un objeto que combina la información del tiempo en el que se producen los eventos o el
tiempo de censura junto con la información referida al estado de cada observación (evento o censura).
Para el ejemplo bajo estudio, ejecutando el código 4.1 se obtiene la salida 4.1 donde se muestra el
contenido de dicho objeto.
# Código 4.1
library(survival)
Surv(tiempo, evento==1) # muestra los tiempos en los cuales se dieron

# los eventos (en este caso codificados como 1)
# y las censuras. Los tiempos censurados se
# representan en la salida con el signo +.
# puede omitirse la especificación “==1”
Salida 4.1
5. Estimación de la función de supervivencia
5.1 Método de Kaplan-Meier

El estimador de Kaplan-Meier utiliza información de todas las observaciones disponibles (censuradas
y no censuradas) considerando la supervivencia en un momento dado como una serie de “pasos”
definidos por los tiempos de supervivencia observados y censurados. Se supone que hay individuos
con tiempos de supervivencia observados ; algunos de estas observaciones pueden ser
censuradas por derecha y además puede haber más de un individuo con el mismo tiempo de
supervivencia observado. Por lo tanto, se supone que hay tiempos distintos en los cuales se
producenlos eventos ( ). Los tiempos de eventos se consideran ordenados en forma ascendente;
6
se indica con ( ) el j-ésimo tiempo ordenado con . De esta forma se tiene que:
( ) ( ) ( ).
El estimador de la función de supervivencia ^( )se obtiene luego de definir los intervalos de manera
que cada uno comience en un tiempo observado y termine en el momento anterior al próximo tiempo
de evento ordenado, de forma que contenga un único tiempo de evento. Así, se tiene:
^( ) ∏ y ( ) ( )
donde representa el número de eventos en el momento ( ) y el número de sujetos en riesgo justo

antes del momento ( ) Notar que ^( ) para ( ) y ( ) se considera ∞.
La función de supervivencia a través del método de Kaplan-Meier puede obtenerse mediante la

función survfit, tal como se muestra en el código 5.1. Notar que la función se aplica a lo que se
denomina un “objeto fórmula”, Surv(tiempo,evento)~1, el cual tiene un objeto Surv como la
respuesta a la izquierda del operador ~. Una curva de supervivencia simple (sin distinguir entre niveles
de ninguna covariable) se obtiene utilizando ~1.
# Código 5.1
KM.surv<-survfit(Surv(tiempo,evento==1)~1, type="kaplan-meier",
conf.int=.95, conf.type='log-log', error="greenwood")
# crea y asigna al objeto KM.surv, la
# función de supervivencia utilizando el método
# de Kaplan-Meier con sus respectivos intervalos de
# confianza del 95%.
# La opción conf.type permite indicar la forma
# de cálculo de los intervalos de confianza. En
# este caso se elige log(-log(survival)).
# La opción error permite especificar la forma de
# cálculo del error estándar de la estimación.
# En este caso tanto “type” como “error” pueden
# omitirse ya que son las que utiliza por defecto.
summary(KM.surv) # permite visualizar la función de

# supervivencia estimada.
7
Salida 5.1
Se muestran los primeros 10 registros.
Para obtener el gráfico de la función de supervivencia se utiliza el comando plot, aplicado al objeto
de R que contiene la función estimada, tal como se muestra en el Código 5.2. Notar que por defecto el
gráfico incluye los intervalos de confianza junto con la curva de supervivencia estimada.
# Código 5.2
plot(KM.surv,
main="Función de supervivencia estimada por Kaplan-Meier",
xlab="Tiempo (años)",
ylab="Probabilidad de supervivencia estimada",
lty=1, lwd=2, cex=1, cex.lab=0.8, mark=1, col="blue")
# En primer lugar se indica el objeto que
# contiene la función estimada (KM.surv en
# este caso).
# El título del gráfico se indica con main y
# los nombres de los ejes con xlab e ylab.
# lty: indica el tipo de línea de la curva (en
# este caso línea sólida)
# lwd: indica el ancho de la línea.
# cex: indica el tamaño de los puntos
# indicadores de censura.
# cex.lab: indica el tamaño de los nombres de
# los ejes.
# mark: indica la forma de los puntos
# indicadores de censura (en este caso círculos
# sin relleno.
# col: indica el color de la curva
axis(1, seq(0,12,1))
axis(2, seq(0,1,.1)) # en la sentencia axis se identifica con el 1
# al eje de las abscisas y con 2 al de las
# ordenadas. Luego, con seq() se define el
# mínimo, máximo y la escala del eje en cuestión.
8
Salida 5.2
Si se desea obtener información sobre los cuartiles, una forma es hacerlo a través de la utilización de
la función quantileaplicada al objeto que contiene la función de supervivencia estimada.
# Código 5.3
quantile(KM.surv,
quantiles=c(0.25, 0.5, 0.75),
conf.int=.95) # en la opción quantiles se indican separados
# por comas los cuantiles para los cuales se
# quiere conocer la estimación.
# Al igual que en la función survfit, en la
# opción conf.int se especifica el
# coeficiente de confianza.
Salida 5.3
9
Recordar:
En el software SAS la estimación de la función de supervivencia se obtiene mediante el
procedimiento lifetest. También forman parte de la salida los cuartiles y el gráfico de la función
estimada (si se utiliza la opción plots=survival).
Proc lifetestdata=EPOC plots=(s);

time TIEMPO*EVENTO(0);
title"Funcion de supervivencia estimada por Kaplan-Meier";
run;
10
5.2 Método de Nelson-Aalen (Nelson-Altschuler)
Otra forma de estimar la función de supervivencia es utilizando el método de Nelson-Aalen. En este

caso el estimador está dado por:
~( ) ∏ ( ) y ( ) ( )
donde y se definen tal como se detalló para el estimador de Kaplan-Meier
La estimación por Nelson-Aalen se obtiene utilizando en la función survfit la opción

type="fleming-harrington", tal como se observa en el código 5.4.
# Código 5.4
NAalen.surv<- survfit(Surv(tiempo, evento==1) ~ 1,

type="fleming-harrington", error="tsiatis", conf.int = .95)
# crea la función de supervivencia utilizando
# el método de Nelson Aalen, con sus
# respectivos intervalos de confianza.
summary(NAalen.surv)
11
Salida 5.4
Se muestran los primeros 11 registros.
Una vez estimada la función de supervivencia, puede graficarse de la misma forma que se procedió
con el estimador de Kaplan-Meier.
# Código 5.5
plot(NAalen.surv,
main="Función de supervivencia estimada por Nelson-Aalen",
lty=1, lwd=2, cex=1, cex.lab=0.8,mark=1,col="blue")
axis(1, seq(0,12,1))
axis(2, seq(0,1,.1))
Salida 5.5
12
Recordar:
En el software SAS se puede obtener este estimador a través de la macro nelaalen (la cual debe
leerse indicando el directorio donde está guardada y luego ejecutarse).
%include"C:\Nelaalen.sas";
%nelaalen(data=EPOC, time=tiempo, cens=evento);
13
5.3 Método de Tablas de Vida
Si los datos con los que se cuenta se presentan agrupados por intervalos, tal como se muestran en la
Tabla 1, es necesario aplicar el Método de Tablas de vida para su análisis. A fin de ejemplificar este
método se creó un archivo con los datos agrupados: “EPOC_agrup.txt”. En el código 5.6 se muestra
cómo acceder a los datos en este caso.
Tabla 1: Tiempos de supervivencia de pacientes con TP agrupados por intervalos.
Nº de
Intervalo Nº de Nº de
individuos
de tiempo eventos censuras
en riesgo
[0,2) 84 6 38
[2,4) 40 11 4
[4,6) 25 5 6
[6,8) 14 3 4
[8,10) 7 3 2
[10,12) 2 0 1
[12,14) 1 1 0
# Código 5.6
EPOC_agrup<-read.table('EPOC_agrup.txt',header=T)
# lee un conjunto de datos a partir de un archivo de
# texto y lo asigna al objeto de R denominado
# EPOC_agrup.
# La opción header=T indica que la primera fila
# contiene los nombres de las variables.
attach(EPOC_agrup) # indica que todas las variables mencionadas en los

# sucesivos códigos se encuentran en el
# objeto EPOC_agrup.
EPOC_agrup # permite visualizar el contenido del objeto

# EPOC_agrup, recién creado.
14
Salida5.6
Nriesgo Ncens Neven

1 84 6
38
2 40 11 En la Salida 5.6 puede observarse que el objeto EPOC_agrup
4 contiene: el número de individuos en riesgo en cada intervalo
3 25 5
6
(Nriesgo), el número de eventos en cada intervalo (Neven) y el
4 14 3 número de censuras en cada intervalo (Ncens).
4
5 7 3
2
Para
6 indicar los2intervalos
0 es necesario completar el código anterior creando un vector que contenga
el 1valor inicial de cada uno de los intervalos de tiempo y además un valor adicional que indica el valor
7 1 1
final del último intervalo. Es decir que tendrá una longitud mayor en una unidad en comparación con
0
el archivo que contiene los datos.
intervalos<-c(0,2,4,6,8,10,12,14)
intervalos#permite visualizar el contenido del objeto creado
La función de supervivencia estimada por medio del método de Tablas de Vida, puede obtenerse
mediante la función lifetab, perteneciente al paquete KMsurv. En el caso de la aplicación, el
código correspondiente es el siguiente:
#Código 5.7
library(KMsurv)
TVida.surv<-lifetab(intervalos, Nriesgo[1], Ncens, Neven)

# crea, y asigna al objeto TVida.surv,
# la función de supervivencia
# utilizando el método de tablas de vida.
# Nriesgo[1]: indica el número de sujetos que
# inicialmente ingresaron al estudio, el primer
#valor de la variable Nriesgo.
TVida.surv[,1:5] # permite visualizar las primeras 5 columnas del

# objeto TVida.surv, las cuales contienen la
# información necesaria para construir la curva
# de supervivencia.
15
Salida 5.7
nsubsnlostnriskneventsurv
0-2 84 6 81.0 38 1.0000000
2-4 40 11 34.5 4 0.5308642
4-6 25 5 22.5 6 0.4693147
6-8 14 3 12.5 4 0.3441641
8-10 7 3 5.5 2 0.2340316
10-12 2 0 2.0 1 0.1489292
12-14 1 1 0.5 0 0.0744646
Nuevamente para construir el gráfico de la curva de supervivencia estimada por este método se
utiliza la función plot.
# Código 5.8
plot(intervalos[1:7],TVida.surv[,5], type="s",
main="Función de supervivencia estimada por Tablas de Vida",
lty=1, lwd=2, cex=1, cex.lab=0.8,col ="blue")
# Al indicar como primer parámetro de la función
# plot “intervalos”, se obtiene en el eje del tiempo
# la escala en función de los límites de los
# intervalos.
# TVida.surv[,5]: indica que del objeto “TVida.surv”
# se utilice la quinta columna, la cual contiene
# la supervivencia estimada.
# type="s":indica que los puntos
# correspondientes a la función estimada
# aparezcan unidos y en forma escalonada.
axis(1, seq(0,12,1))
axis(2, seq(0,1,.1))
Salida 5.8
16
Recordar:
En SAS, la estimación de la función de supervivencia se realiza por medio del procedimiento lifetest,
especificando el método a utilizar mediante method=lt.
data intervalos;
input tiempo censura freq;
cards;
1 0 6
1 1 38
3 0 11
3 1 4
5 0 5
5 1 6
7 0 3
7 1 4
9 0 3
9 1 2
11 0 0
11 1 1
13 0 1
13 1 0
;
run;
ods graphics on;

proclifetestdata=intervalosmethod=ltintervals=(0 to 14 by 2) plots=(s);
time tiempo*censura(0);
freqfreq;
run;
odsgraphics off;
17
18
6. Estimación de la función hazard a través del método de Nelson-

Aalen
La función hazard es una función fundamental en análisis de supervivencia; especifica la tasa

instantánea a la cual los eventos ocurren para individuos que sobrevivieron hasta el tiempo . Si es
una variable continua se tiene que:
( )
( )
( )
Esta función sirve para determinar la distribución de los eventos utilizando información cualitativa
acerca del mecanismo de falla (o de generación de eventos) y para describir cómo dicho mecanismo
cambia a través del tiempo.
Una cantidad relacionada es la función hazard acumulada, ( ), definida como:
( ) ∫ ( ) [ ( )]
Haciendo uso de esta última relación, la función hazard acumulada estimada a través del método de
Nelson-Aalen se puede obtener a partir de la función de supervivencia calculada por el mismo método
en la sección5.2.
La función hazard acumulada estimada se obtiene tal como se muestra en el código 6.1.
# Código 6.1
h.aalen<-(-log(NAalen.surv$surv))
# Se le asigna al objeto llamado h.aalen el valor
# negativo del logaritmo de los valores de la función
# de supervivencia estimada por Nelson-Aalen para
# obtener la estimación de la función hazard
# acumulada.
h.aalen
19
Salida 6.1
Si se quiere visualizar de forma conjunta la función hazard acumulada recientemente estimada y la

función de supervivencia, se puede utilizar la siguiente sentencia.
# Código 6.2
attach(NAalen.surv)
aalen.est<- data.frame(time=time, d=n.event,

n=n.risk, h.aalen, superv_NA=surv)
#data.frame: crea un data a partir de una lista
# de variables con mismo número de filas,
# time=time: construye el tiempo a partir del vector
# denominado time,
# d=n.event: construye el número de eventos
# en cada tiempo a partir del vector n.event,
# n=n.risk: construye el número de eventos en cada tiempo
# a partir del vector n.event,
# h.aalen: objeto que contiene el negativo del
# logaritmo de los valores de la función de
# supervivencia estimada por Nelson-Aalen,
# superv_NA=surv: construye la función
# de supervivencia estimada por Nelson-Aalen a
# partir del vector surv.
aalen.est
detach(NAalen.surv)
20
Salida 6.2
Se muestran las primeras 8filas.
Para realizar el gráfico de la función hazard estimada por Nelson-Aalen junto con una curva loess se
pueden utilizar las funciones plotpara el gráfico de dispersión y linespara ajustar la curva loess de
la siguiente manera.
# Código 6.3
attach(aalen.est)
h<-d/n # asigna al vector h el cociente entre el número

# de evento y el número de individuos en riesgo
# en cada tiempo.
plot(time, h, type="p", pch=20,

ylab="Función Hazardestimadapor N-A")
lines(lowess(time, h))
# time: son los tiempos de supervivencia
# que forman el eje X del # gráfico,
# h: son los valores del elemento h que forman el eje
# Y del gráfico,
# type="p": indica que es un gráfico de puntos,
# pch=20: indica la forma de los puntos,
# lines(lowess(time, h)): agrega una curva loess
# al gráfico de dispersión.
detach(aalen.est)
21
Salida 6.4
Recordar:
En SAS, como resultado de la macro nelaalense obtiene el data hazard, el cual contiene las
estimaciones de la función hazard por Nelson-Aalen tanto en forma puntual como acumulada, bajo los
nombres hazna y hazcumrespectivamente. Por lo tanto, a través de los procedimientos proc
loessy procgplot se puede obtener el gráfico correspondiente, utilizando el data hazard.
Proc loess data=hazard;

modelhazna=tiempo / smooth=0.6;
ods outputOutputStatistics=Results;
run;
axis1 label=(angle=90rotate=0) minor=none;
symbol1 color=black value=dot i=none h=0.5;
symbol2 color=black interpol=join value=none;
procgplotdata=Results;
plotDepVar*tiempo=1Pred*tiempo / vaxis=axis1 hm=3vm=3 overlay;
formatdepvar5.2 tiempo 2.;
run; quit;
22
7. Comparación de curvas de supervivencia estimadas

7.1 Comparación de dos grupos
La forma más simple de comparar los tiempos de supervivencia obtenidos a partir de dos grupos de
individuos es presentar las estimaciones de las funciones de supervivencia en un mismo gráfico.
En el código 7.1 se presenta la sentencia necesaria para obtener la estimación de la función de
supervivencia en forma separada para los pacientes que fueron trasplantados bajo el estado de
urgencia o emergencia y para aquellos que lo hicieron en forma electiva. Luego, en el código 7.2 se
muestra cómo obtener el gráfico correspondiente, a través de la función plot.
# Código 7.1
KM_estadoclinico<-survfit(Surv(tiempo, evento==1)~estado_clinico)
# estima la función de supervivencia
# según la variable que se quiere comparar, la cual
# se especifica luego del símbolo “~”, en este caso
# “estado_clínico”.
summary(KM_estadoclinico)
23
Salida 7.1
Se muestran los primeros 7 registros para el grupo de trasplante electivo.
# Código 7.2
plot(KM_estadoclinico,
xlab="Tiempo(años)",
main="Estimador de Kaplan-Meier según estado clínico",
lty=c(1,2)) # lty=c(1,2): es un vector que indica el
# tipo de línea, en este caso 1=línea sólida y
# 2=línea punteada.
legend(x=5,y=1,
legend=c("Urgencia/Emergencia","Electivo"),lty=c(1,2))
# legend: esta función se puede utilizar para
# agregar leyenda al gráfico.
# x e y son las coordenadas que se utilizan para
# colocar la leyenda.
24
Salida 7.2
Existen dos explicaciones posibles para la diferencia observada entre las funciones de supervivencia
estimadas; puede ocurrir que exista una diferencia real en la supervivencia entre los dos grupos o bien
queno exista tal diferencia y que la diferencia observada sea solamente el resultado del azar. Para
decidir entre las dos explicaciones se utiliza un test de hipótesis. Dicho test puede realizarse a través
de la función survdiff, que permite efectuar el contraste de hipótesis para verificar la igualdad o
diferencia de dos o más curvas de supervivencias en base a la familia de pruebas G-rho propuestas por
Harrington y Fleming (1982). La familia de tests G-rho de Fleming y Harrington es otra forma de
estudiar los test log-ranky de Peto-Peto. Esos dos autores sugieren pesos de la forma:
[^ ( )] ; haciendo se tiene que (test log-rank) y, si , se obtiene el test de
Peto-Peto. Por lo tanto, es fundamental especificar el argumento “rho” en el código de R.
Por ejemplo, si se quiere obtener el test log-rank para evaluar si la diferencia observada en el gráfico
según estado clínico es significativa puede utilizarse el código 7.3.
# Código 7.3
survdiff(Surv(tiempo, evento==1)~estado_clinico, rho=0)

# survdiff: comprueba si hay una diferencia entre dos
# o más curvas de supervivencia; con rho=0 se
# obtiene el test log-rank.
25
Salida 7.3
Recordar:
En SAS se obtienen las estimaciones de las funciones de supervivencia para cada grupo junto con los
tests de hipótesis mediante la sentencia stratadentro del procedimiento lifetest.
symbol1i=join v=none line=2 color=darkblue;

symbol3i=join v=none line=1 color=red;
proclifetestdata=EPOC plots=s cs=dot;

time tiempo*evento(0);
strataestado_clinico;
title"Función de supervivencia estimada por Kaplan-Meier según estado
clínico";
run;
26
7.2 Test log-rank de tendencia

El test log-rank de tendencia se utiliza para detectar un ordenamiento en las curvas de supervivencia
estimadas cuando se comparan tres o más grupos que presentan un orden. Por ejemplo, si se quiere
comparar distintas dosis de un tratamiento o bien distintos grupos etarios. En R para obtener este test
se suele recurrir al planteo de un modelo de Cox, considerando la variable que se quiere analizar en el
predictor. La función que permite ajustar este modelo es coxph la cual se utiliza igual que la función
survdiff ya explicada.
En el caso de la aplicación, supongamos que resulta de interés estudiar la experiencia de
supervivencia de los individuos de acuerdo a ciertos grupos etarios. En primer lugar es necesario
definir estos grupos, lo cual se muestra en el código 7.4; luego, en el código 7.5 se muestra cómo
obtener el test de tendencia correspondiente.
# Código 7.4
Base_EPOC[,"edad_cat"] <- cut(Base_EPOC$Edad,

breaks = c(0,52,58,70),labels= FALSE)
# cut: divide una variable continua en intervalos.
# breaks: es un vector que contiene los puntos
# de corte. En este caso quedan definidos 4 grupos:
# (0;52], (52;58], (58;70] y más de 70 años.
# labels=FALSO: asigna códigos con números
# enteros en lugar de un factor.
# Código 7.5
test_tendencia<-coxph(Surv(tiempo, evento==1)~Base_EPOC$edad_cat)
summary(test_tendencia)
27
Salida 7.5
Recordar:
En SAS el test de tendencia se obtiene mediante la sentencia test en el procedimiento lifetest.
Proc lifetestdata=EPOC_2 ;
time tiempo*evento(0);
testedad_cat;
run;
7.3 Test estratificado
El test estratificado se utiliza para comparar dos o más conjuntos de datos de supervivencia teniendo
en cuenta una variable adicional. Por ejemplo, si se quisiera evaluar la existencia de diferencias en la
supervivencia de los pacientes según su estado clínico, estratificando (o controlando) por grupo etario.
Este test puede llevarse a cabo corriendo la función surfdiff( # Código 7.6) o recurriendo nuevamente a
un modelo de Cox ( # Código 7.7).
# Código 7.6
Estratificado1<-survdiff(Surv(tiempo, evento==1)~estado_clinico +
strata(Base_EPOC$edad_cat)
28
Salida 7.6
N ObservedExpected (O-E)^2/E (O-E)^2/V

estado_clinico=Electivo 70 49 45.79 0.226 1.43
estado_clinico=Urgencia/Emergencia 14 6 9.21 1.121 1.43
Chisq= 1.4 on 1 degrees of freedom, p= 0.2
# Código 7.7
Estratificado<-coxph(Surv(tiempo,evento==1)~
strata(Base_EPOC$edad_cat)+estado_clinico)
summary(estratificado)
Salida 7.7
Recordar:
Para obtener el test estratificado en SAS se utilizan las sentencias test y stratade forma
conjunta. De esta manera, las estadísticas producidas por la sentencia test son estadísticas
estratificadas que controlan por las variables listadas en la sentencia strata.
Proc lifetestdata=EPOC_2;
timetiempo*evento(0);
strataedad_cat;
testestado_clinico_;
run;
29
8. Referencias bibliográficas
 Collett, David (2003)

“Modelling Survival Datain Medical Research”.SegundaEdición.United State of America: Chapman &
Hall/CRC.
 Borges Peña, Rafael Eduardo (2005)

“Análisis de Supervivencia utilizando el lenguaje R”. Disponible en:
http://webdelprofesor.ula.ve/economia/borgesr/PaipaREBP.pdf. [Último acceso: Julio 2015].
 Moore, Dirk (2016)

“Applied Survival Analysis Using R”.Springer.
 Hosmer, David; Lemeshow, Stanley
“R Textbook Examples: Applied Survival Analysis”. Chapter 2: “Descriptive Methods for Survival Data”.
Disponible en: http://www.ats.ucla.edu/stat/sas/examples/asa/asa2_may_2006.htm. [Últimoacceso:
Julio 2015].
 Fox, John; Weisberg, Sanford (2011)

“Cox Proportional- Hazards Regression for Survival Data”.Disponible
en:http://socserv.socsci.mcmaster.ca/jfox/Books/Companion/appendix/Appendix-Cox-Regression.pdf.
[Últimoacceso: Julio 2015].
 Therneau, Terry M (2015)
Packages “survival”.The R Project for Statistical Computing.Disponibleen: https://cran.r-
project.org/web/packages/survival/survival.pdf. [Último acceso: Julio 2015].
 Klein; Moeschberger; Yan, Jun (2015)
Packages “KMsurv”. The R Project for StatisticalComputing.Disponibleen: https://cran.r-
project.org/web/packages/KMsurv/KMsurv.pdf. [Últimoacceso: Julio 2015].
 Borges, Rafael (2004)
Analisis de supervivencia básico utilizando el lunguaje R. Disponible en:
http://www.academia.edu/3089513/Analisis_de_supervivencia_basico_utilizando_el_lenguaje_R.
[Último acceso: Julio 2015].
30

Análisis de Datos de Supervivencia - Apuntes de Clase - Noparam - 2019

Cargado por

Copyright:

Formatos disponibles

Análisis de Datos de Supervivencia - Apuntes de Clase - Noparam - 2019

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de Datos de Supervivencia - Apuntes de Clase - Noparam - 2019

Cargado por

Copyright:

Formatos disponibles

Universidad Nacional de Rosario

Facultad de Ciencias Económicas y Estadística

Material elaborado por la cátedra: Análisis de Datos de Supervivencia

Autoras: Harvey G.; Arnesi N.; Boggio G.

A fin de ejemplificar los distintos procedimientos se presenta el análisis de un problema real.

2. Presentación del problema

- Sexo: género del paciente, con niveles: hombre y mujer.

- Edad: edad a la que se realizó el TP, expresada en años.

Resulta de interés evaluar el efecto de las variables demográficas mencionadas sobre la

3. Aspectos específicos del software R

 help(“tema”), para obtener ayuda acerca del tópico específico, el inconveniente de

3.1. Lectura de datos

Base_EPOC # permite visualizar el contenido del objeto

attach(Base_EPOC) # indica que todas las variables mencionadas

La salida correspondiente a la ejecución de este código es la Salida 3.1.

3.2. Instalación y carga de paquetes

install.packages("nombre_del_paquete") # no omitir comillas.

4. Procedimientos no paramétricos para datos de supervivencia

Surv(tiempo, evento==1) # muestra los tiempos en los cuales se dieron

5. Estimación de la función de supervivencia

5.1 Método de Kaplan-Meier

donde representa el número de eventos en el momento ( ) y el número de sujetos en riesgo justo

La función de supervivencia a través del método de Kaplan-Meier puede obtenerse mediante la

summary(KM.surv) # permite visualizar la función de

Proc lifetestdata=EPOC plots=(s);

5.2 Método de Nelson-Aalen (Nelson-Altschuler)

Otra forma de estimar la función de supervivencia es utilizando el método de Nelson-Aalen. En este

donde y se definen tal como se detalló para el estimador de Kaplan-Meier

La estimación por Nelson-Aalen se obtiene utilizando en la función survfit la opción

NAalen.surv<- survfit(Surv(tiempo, evento==1) ~ 1,

5.3 Método de Tablas de Vida

Tabla 1: Tiempos de supervivencia de pacientes con TP agrupados por intervalos.

attach(EPOC_agrup) # indica que todas las variables mencionadas en los

EPOC_agrup # permite visualizar el contenido del objeto

Nriesgo Ncens Neven

TVida.surv<-lifetab(intervalos, Nriesgo[1], Ncens, Neven)

TVida.surv[,1:5] # permite visualizar las primeras 5 columnas del

ods graphics on;

6. Estimación de la función hazard a través del método de Nelson-

La función hazard es una función fundamental en análisis de supervivencia; especifica la tasa

Una cantidad relacionada es la función hazard acumulada, ( ), definida como:

Si se quiere visualizar de forma conjunta la función hazard acumulada recientemente estimada y la

aalen.est<- data.frame(time=time, d=n.event,

h<-d/n # asigna al vector h el cociente entre el número

plot(time, h, type="p", pch=20,

Proc loess data=hazard;

7. Comparación de curvas de supervivencia estimadas

survdiff(Surv(tiempo, evento==1)~estado_clinico, rho=0)

symbol1i=join v=none line=2 color=darkblue;

proclifetestdata=EPOC plots=s cs=dot;

7.2 Test log-rank de tendencia

Base_EPOC[,"edad_cat"] <- cut(Base_EPOC$Edad,

7.3 Test estratificado

N ObservedExpected (O-E)^2/E (O-E)^2/V

 Collett, David (2003)

 Borges Peña, Rafael Eduardo (2005)

 Moore, Dirk (2016)

 Fox, John; Weisberg, Sanford (2011)