MMF Prop

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 82

Métodos Matemáticos de la Fı́sica

Curso propedéutico para la admisión a la maestrı́a

Olivier Sarbach
Instituto de Fı́sica y Matemáticas
Universidad Michoacana de San Nicolás de Hidalgo
26 de noviembre de 2013

Índice
1. Algebra lineal 2
1.1. Números reales y complejos . . . . . . . . . . . . . . . . . . . . . 3
1.1.1. Propiedades algebráicas de R . . . . . . . . . . . . . . . . 4
1.1.2. El valor absoluto . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3. El campo de los números complejos . . . . . . . . . . . . 7
1.1.4. El complejo conjugado y la norma . . . . . . . . . . . . . 9
1.1.5. La representación polar de un número complejo . . . . . . 10
1.2. Espacios vectoriales . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3. Independencia lineal, bases, dimensiones . . . . . . . . . . . . . . 18
1.4. Productos escalares, bases ortonormales (caso real) . . . . . . . . 27
1.5. Productos escalares, bases ortonormales (caso complejo) . . . . . 36
1.6. Transformaciones lineales y matrices . . . . . . . . . . . . . . . . 42
1.6.1. Núcleo, imagen, invertibilidad de transformaciones lineales 44
1.6.2. Matrices de transformación . . . . . . . . . . . . . . . . . 51
1.7. Determinantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.8. Autovalores y autovectores . . . . . . . . . . . . . . . . . . . . . 51
1.9. Diagonalización de matrices . . . . . . . . . . . . . . . . . . . . . 51
1.10. Matrices Hermitianas y matrices unitarias . . . . . . . . . . . . . 51

2. Cálculo 52
2.1. Sucesiones convergentes . . . . . . . . . . . . . . . . . . . . . . . 52
2.2. Funciones f : Rn → Rm continuas . . . . . . . . . . . . . . . . . . 54
2.3. Funciones f : Rn → Rm diferenciables . . . . . . . . . . . . . . . 61
2.4. El teorema de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.5. Extremos relativos de funciones f : Rn → R . . . . . . . . . . . . 76
2.6. El teorema de funciones inversas . . . . . . . . . . . . . . . . . . 80
2.7. Campos vectoriales . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.8. Los teoremas de Gauss y de Stokes (sin demostración) . . . . . . 80
2.9. Ecuaciones diferenciales ordinarias . . . . . . . . . . . . . . . . . 80

1
2.10. Funciones complejas . . . . . . . . . . . . . . . . . . . . . . . . . 80

3. Teorı́a de grupos 81
3.1. Propiedades básicas de los grupos . . . . . . . . . . . . . . . . . . 81
3.2. Ejemplos de grupos discretos . . . . . . . . . . . . . . . . . . . . 81

1. Algebra lineal
El problema central del álgebra lineal es de resolver un sistema lineal,

Ax = b, (1)

donde A : V → W es una transformación lineal dada de un espacio vectorial V


a otro espacio vectorial W , x ∈ V es una variables desconocida y b ∈ W es una
variable dada. Surgen las siguientes preguntas:
(1) ¿Existe una solución x ∈ V de (1)?
(2) ¿Para que valores de b ∈ W existen soluciones?
(3) ¿La solución x ∈ V de (1) (si existe) es única?
(4) ¿Cómo depende x de b ?
El álgebra lineal es una teorı́a que da los métodos necesarios para contestar
estas preguntas. Estas preguntas surgen en varios problemas de la fı́sica.

Ejemplos
1. Buscar x1 y x2 tales que

4x1 − 12x2 = b1 ,
−x1 + 3x2 = b2 ,

donde b1 y b2 son números reales dados. Para analizar las preguntas (1)-
(4) multiplicamos primero la segunda ecuación por cuatro y sumamos el
resultado a la primera ecuación. Ası́ obtenemos que

0 = b1 + 4b2 ,

entonces solamente pueden existir soluciones si b1 + 4b2 = 0. En este caso,


la solución general se puede escribir de la forma

(x1 , x2 ) = (3t − b2 , t), (2)

donde t es un número real arbitrario. Entonces si b1 + 4b2 6= 0 no existe


ninguna solución; si b1 + 4b2 = 0 existen infinitas soluciones dadas por
(2). En este ejemplo, V = W = R2 := {(x1 , x2 ) : x1 , x2 ∈ R} = {(b1 , b2 ) :
b1 , b2 ∈ R} consisten en el espacio de todos los puntos en el plano real.

2
2. Sea Ω ⊂ R3 un subconjunto del espacio tridimensional R3 , y sea ∂Ω su
frontera. El problema de Dirichlet consiste en encontrar una función u :
Ω → R tal que

− ∆u(x) = ρ(x), x ∈ Ω,
u(x) = 0, x ∈ ∂Ω,

donde ρ : Ω → R es una función dada y

∂2 ∂2 ∂2
∆ := 2
+ 2+ 2
∂x ∂y ∂z
es el operador de Laplace. En este caso, los espacios V y W son espacios
funcionales de dimensión infinita. Eligiendo estos espacios de manera ade-
cuada permite demostrar que el problema de Dirchlet posee una solución
única para cada ρ ∈ W . Pero para entender bien este problema se necesi-
tan conocimientos básicos en análisis funcional (el estudio de operadores
lineales sobre espacio vectoriales de dimensión infinita).
El problema de Dirichlet surge en varias ramas de la fı́sica, como por
ejemplo en electrostática y gravitación.

1.1. Números reales y complejos


Empezamos con la descripción de los “bloques de construcciones” para las
estructuras matemáticas que se usan en la fı́sica: Los números.
Definimos primero el conjunto de los números naturales

N := {1, 2, 3, 4, . . .}

y el conjunto N0 := {0, 1, 2, 3, . . .} = {0} ∪ N. Los números naturales son incom-


pletos con respecto a la suma: La ecuación

x + n = m, n, m ∈ N

no tiene soluciones x ∈ N si m ≤ n.
Por esta razón se define el conjunto de los números enteros

Z := {0, 1, −1, 2, −2, 3, −3, . . .}.

Los números enteros son completos con respecto a la suma, pero incompletos
con respecto a la multiplicación: La ecuación

p · x = q, p, q ∈ Z, p 6= 0,

no posee soluciones x ∈ Z al menos que p sea un divisor de q.


Entonces definimos el conjunto de los números racionales
nq o
Q := : p, q ∈ Z, p 6= 0 .
p

3
Los números racionales son completos con respecto a la suma y la multiplicación;
como vamos a ver, constituyen un campo. A pesar de esto, los números racionales
también sufren de un tipo de incompletitud: Por ejemplo, la ecuación

x2 = 2, x∈Q

no posee soluciones como lo demuestra el Lema que sigue.



Lema 1 ( 2 es un número irracional) No existe ningún número racional
x ∈ Q tal que x2 = 2.

Demostración. Supongamos que existe un número racional x ∈ Q tal que


x2 = 2. Entonces existen números enteros, q y p, con p 6= 0 tal que x = q/p.
Podemos suponer que q y p no tienen ningún factor común. Dado que q 2 = 2p2
se deduce que q debe ser un entero par; de otra manera q tendrı́a la forma
q = 2k + 1 para un entero k lo que implicarı́a que q 2 = 4(k 2 + 1) + 1 es impar.
Por lo tanto, existe k ∈ Z tal que q = 2k, y en consecuencia, 2k 2 = p2 . Por el
razonamiento anterior esto implica que p es impar. Entonces p y q son divibles
entre 2 lo que contradice la hipótesis de que p y q no tengan ningún factor
común.

Por esta razón vamos a trabajar con un conjunto aún mas grande de números:
el conjunto de los números reales R. Geometricamente, los números reales
representan el conjunto de los puntos en una recta. Se pueden definir como el
conjunto de números que pueden ser aproximados por los números racionales.
Una definición precisa del conjunto de los números reales es no-trivial (ver, por
ejemplo, [1]). En vez de intentar esto, vamos a resumir las propiedades de los
números reales.

1.1.1. Propiedades algebráicas de R


En el conjunto R de números reales existen dos operaciones binarias, + :
R × R → R (la suma) y · : R × R → R (la multiplicación) que satisfacen las
siguientes propiedades para todos a, b, c ∈ R:

(A1) a+b=b+a (conmutividad de +)


(A2) (a + b) + c = a + (b + c) (asociatividad de +)
(A3) Existe un elemento 0 de R tal que
a + 0 = a para todos a ∈ R. (elemento neutro aditivo)
(A4) Para cada elemento a ∈ R existe un
elemento −a ∈ R tal que a + (−a) = 0. (inverso additivo)
(M1) a·b=b·a (conmutividad de ·)
(M2) (a · b) · c = a · (b · c) (asociatividad de ·)
(M3) Existe un elemento 1 de R, 1 6= 0,
tal que 1 · a = a para todos a ∈ R. (elemento neutro multiplicativo)
(M4) Para cada elemento a ∈ R, a 6= 0, existe un
elemento a−1 ∈ R tal que a · a−1 = 1. (inverso multiplicativo)
(D) a · (b + c) = a · b + a · c (ley de distribución)

4
Definición 1 Un conjunto F donde están definidos una suma + : F × F → F y
una multiplicación · : F × F → F se llama un campo si se satisfacen los nueve
axiomas (A1)-(A4),(M1)-(M4),(D) con R reemplazado por F.

Ejemplos
1. El conjunto de los números racionales, Q, también forma un campo.
2. Como vamos a ver pronto, el conjunto de los números complejos, C, forma
un campo.
3. Se puede verificar que el conjunto F2 := {0, 1} con las operaciones + y ·
definidas por

0 + 0 := 0, 0 · 0 := 0,
0 + 1 := 1, 0 · 1 := 0,
1 + 0 := 1, 1 · 0 := 0,
1 + 1 := 0, 1 · 1 := 1,

forma un campo (es el campo mas pequeño de todos ya que todo campo
contiene por lo menos el elemento neutro aditivo (0) y el elemento neutro
multiplicativo (1 6= 0).

Ejercicio 1. Sea F un campo. Usando los nueve axiomas (A1)-(A4),(M1)-


(M4),(D), demuestre las siguientes afirmaciones:
(a) Los elementos 0 y 1 de F son únicos.

(b) 0 · x = 0 para todo x ∈ F.


(c) Si x · y = 0, x, y ∈ F, entonces x = 0 o y = 0.

El campo de los números reales R, aparte de los axiomas (A1)-(A4),(M1)-


(M4),(D) de arriba, también satisface dos otras propiedades fundamentales: la
propiedad de orden y la propiedad de complementación. Se puede mostrar que
R es el único campo que satisface estas dos propiedades extras. Por ejemplo, Q
es ordenado pero no completo y C es completo pero no ordenado. Consultar la
literatura (por ejemplo [1]) para mas detalles sobre este tema.

1.1.2. El valor absoluto


Definición 2 Sea a ∈ R. El valor absoluto de a está definido por

a si a ≥ 0,
|a| :=
−a si a < 0.

Observación: Por definición, |a| ≥ 0 para todo a ∈ R.

5
Lema 2 (Propiedades elementales del valor absoluto) El valor absoluto
satisface las siguientes propiedades:
(i) |a| = 0 si y sólo si a = 0.
(ii) | − a| = |a| para todo a ∈ R.

(iii) |a · b| = |a| · |b| para todos a, b ∈ R.


(iv) Sea c ≥ 0. Entonces |a| ≤ c si y sólo si −c ≤ a ≤ c.
(v) −|a| ≤ a ≤ |a| para todo a ∈ R.

Demostración.
(i) Si a = 0, entonces por definición |a| = 0. Si a 6= 0, entonces también a 6= 0,
de manera que |a| =6 0.

(ii) Si a ≥ 0, entonces | − a| = a = |a|. Si a < 0, entonces | − a| = −a = |a|.


(iii) Si a≥0 y b ≥ 0, entonces a · b ≥ 0 y |a · b| = a · b = |a| · |b|.
Si a≥0 y b < 0, entonces a · b ≤ 0 y |a · b| = −a · b = (−a) · b = |a| · |b|.
Si a<0 y b ≥ 0, entonces a · b ≤ 0 y |a · b| = −a · b = a · (−b) = |a| · |b|.
Si a<0 y b < 0, entonces a · b > 0 y |a · b| = a · b = (−a) · (−b) = |a| · |b|.
(iv) Sea |a| ≤ c. Entonces, tenemos que −a ≤ a ≤ c si a ≥ 0 y a ≤ −a ≤ c
si a < 0. En ambos casos, esto implica que −a ≤ c y a ≤ c. Entonces,
−c ≤ a ≤ c. Por otro lado, si −c ≤ a ≤ c, entonces −a ≤ c y a ≤ c de tal
manera que |a| ≤ c.

(v) Sean a ∈ R. Defina c := |a| ≥ 0. El resultado del inciso anterior implica


que −|a| ≤ a ≤ |a|.

Teorema 1 (desigualdad del triángulo) Sean a, b ∈ R. Entonces,


(i) |a + b| ≤ |a| + |b|.

(ii) |a| − |b| ≤ |a − b|.

Demostración.

(i) De acuerdo con el lema 2(v) se tiene −|a| ≤ a ≤ |a| y −|b| ≤ b ≤ |b|.
Entonces,
− (|a| + |b|) ≤ a + b ≤ |a| + |b|.
A partir del lema 2(iv) se infiere que

|a + b| ≤ |a| + |b|.

6
(ii) Usando el resultado del inciso (i) se tiene

|a| = |a − b + b| ≤ |a − b| + |b|,

y entonces |a| − |b| ≤ |a − b|. Intercambiando a y b, también tenemos que


|b| − |a| ≤ |b − a| = |a − b|. Entonces

|a| − |b| ≤ |a − b|.

1.1.3. El campo de los números complejos


Los números reales, aunque completos con respecto a la suma y multipli-
cación también sufren de un problema: No son algebraicamente completos. Por
ejemplo, la ecuación
x2 = −1
no posee soluciones x ∈ R dado que si x es un número real, su cuadrado siempre
es positivo o cero. Por esta razón conviene, a veces, considerar un conjunto
todavia mas grande de números: El conjunto de los números complejos. En
fı́sica, por ejemplo, los números complejos son importantes para describir la
mecánica cuántica.

Definición 3 Un número complejo z es un par ordenado z = (x, y) de núme-


ros reales x, y ∈ R. x se llama la parte real de z y se denota por x = Re(z).
y se llama la parte imaginaria de z y se denota por x = Im(z). El conjunto
de todos los números complejos se disigna con C.

Definimos en C:
El elemento 0C := (0, 0).
El elemento 1C := (1, 0).
El elemento i := (0, 1).
La suma + : C × C → C por

(x1 , y1 ) + (x2 , y2 ) := (x1 + x2 , y1 + y2 ) (3)

para todos (x1 , y1 ), (x2 , y2 ) ∈ C.


La multiplicación · : C × C → C por

(x1 , y1 ) · (x2 , y2 ) := (x1 x2 − y1 y2 , x1 y2 + x2 y1 ) (4)

para todos (x1 , y1 ), (x2 , y2 ) ∈ C.


Notamos que z + 0C = z, 1C · z = z para todo z ∈ C y que i2 = −1C .

7
Lema 3 (C es un campo) El conjunto de los números complejos C con la
suma, la multiplicación, el elemento neutro aditivo 0C y el elemento neutro
multiplicativo 1C definidos arriba forma un campo.

Demostración. Tenemos que verificar la validez de los nueve axiomas (A1)-


(A4),(M1)-(M4),(D) en la página 4. Los axiomas (A1)-(A4) son consecuencias
inmediatas de la definición de la suma (3) y de los axiomas correspondientes para
los números reales. El axioma (M1) se deduce de manera directa de la definición
(4). Para verificar el axioma (M2) tomamos z1 = (x1 , y1 ), z2 = (x2 , y2 ), z3 =
(x3 , y3 ) ∈ C y calculamos

(z1 · z2 ) · z3 = (x1 x2 − y1 y2 , x1 y2 + x2 y1 ) · (x3 , y3 )


= (x1 x2 x3 − y1 y2 x3 − x1 y2 y3 − x2 y1 y3 , x1 x2 y3 − y1 y2 y3 + x1 y2 x3 + x2 y1 x3 )
= (x1 , y1 ) · (x2 x3 − y2 y3 , x2 y3 + x3 y2 )
= z1 · (z2 · z3 ).

El axioma (M3) ya fue verificado arriba. Para verificar el axioma (M4), sea
z = (x, y) ∈ C, z 6= 0C , dado. Entonces tenemos que encontrar w = (a, b) ∈ C
tal que z · w = 1C . Es decir, tenemos que encontrar a, b ∈ R tales que

xa − yb = 1,
xb + ya = 0.

Multiplicando la primera ecuación por x y la segunda por y, y sumando el


resultado obtenemos que (x2 + y 2 )a = x. De manera similar, obtenemos que
(x2 + y 2 )b = −y. Puesto que x2 + y 2 6= 0, encontramos que
 
x −y
w = (a, b) = , . (5)
x2 + y 2 x2 + y 2

Entonces existe z −1 ≡ w tal que z · z −1 = 1C . Finalmente, para verificar (D),


sean z1 = (x1 , y1 ), z2 = (x2 , y2 ), z3 = (x3 , y3 ) ∈ C. Entonces,

z1 · (z2 + z3 ) = (x1 , y1 ) · (x2 + x3 , y2 + y3 )


= (x1 x2 + x1 x3 − y1 y2 − y1 y3 , x1 y2 + x1 y3 + y1 x2 + y1 x3 )
= z1 · z2 + z1 · z3 .

Notación: Sea z = (x, y) ∈ C. Para lo que sigue, escribimos

z = x + iy.

En particular, escribimos 1C = 1 y 0C = 0. La ventaja de esta notación es


que podemos hacer los cálculos usando las mismas reglas (por ejemplo los axio-
mas (A1)-(A4),(M1)-(M4),(D)) como para los números reales pero tomando en
cuenta de que
i2 = −1.

8
Por ejemplo, sean z1 = x1 + iy1 , z2 = x2 + iy2 ∈ C, entonces

z1 + z2 = (x1 + x2 ) + i(y1 + y2 )

lo que corresponde a la suma y

z1 · z2 = (x1 + iy1 ) · (x2 + iy2 )


= x1 x2 + i2 y1 y2 + x1 (iy2 ) + iy1 x2
= (x1 x2 − y1 y2 ) + i(x1 y2 + x2 y1 )

lo que corresponde a la multiplicación.


Ejercicio 2. Calcule
(a) (1 + i)2
(b) (1 + i)(1 − i)
(c) 4 + 5i − (2 − 3i)(4 + 7i)

1.1.4. El complejo conjugado y la norma


Definición 4 Sea z = x + iy ∈ C. Entonces definimos el conjugado de z por

z := x − iy,

y la magnitud (o norma) de z por


√ p
|z| := z · z = x2 + y 2 .

Observaciones
1. Re(z) = 12 (z + z).
1
2. Im(z) = 2i (z − z).
3. z = z si y sólo si z es real (Im(z) = 0).
4. z = −z si y sólo si z es puramente imaginario (Rez = 0).
5. Es fácil verificar que z1 + z2 = z1 + z2 y que z1 · z2 = z1 · z2 para todos
z1 , z2 ∈ C.
6. Obviamente, |z| = |z| para todos z ∈ C.

Lema 4 (Propiedades de la norma) La norma satisface las siguientes pro-


piedades:
(i) |z| ≥ 0 y |z| = 0 si y sólo si z = 0.
(ii) |z1 · z2 | = |z1 ||z2 | para todos z1 , z2 ∈ C.

9
(iii) |z1 + z2 | ≤ |z1 | + |z2 | para todos z1 , z2 ∈ C.

Demostración.
p
(i) De la definición, |z| = x2 + y 2 , z = x + iy ∈ C, es obvio que |z| ≥ 0 y
que |z| = 0 si y sólo si x = y = 0, es decir, si y sólo si z = 0.
(ii) √ √
|z1 · z2 | = z1 · z2 · z1 · z2 = z1 · z1 · z2 · z2 = |z1 ||z2 |.

(iii) Primero, tenemos que

|z1 + z2 |2 = (z1 + z2 ) · (z1 + z2 )


= |z1 |2 + |z2 |2 + z1 · z2 + z1 · z2
= |z1 |2 + |z2 |2 + 2Re(z1 z2 ).

Puesto que Re(w) ≤ |w| para todos w ∈ C, y usando el resultado del inciso
(ii) obtenemos que

|z1 + z2 |2 ≤ |z1 |2 + |z2 |2 + 2|z1 ||z2 | = (|z1 | + |z2 |)2 .

Tomando la raı́z cuadrada de ambos lados obtenemos la afirmación (iii).

Ejemplo: Sean z ∈ C, z 6= 0, y z −1 ∈ C la inversa de z, es decir

z · z −1 = 1.

Multiplicando ambos lados de esta ecuación por z obtenemos que

|z|2 · z −1 = z.

Dado que |z| 6= 0 (por el Lema 4(i)) podemos dividir ambos lados por |z|2 y
obtenemos que
z
z −1 = 2 . (6)
|z|
Notamos que esta ecuación coincide con la representación de la inversa que
encontramos en (5).

1.1.5. La representación polar de un número complejo


Definición 5 Dado un número complejo z = x + iy ∈ C diferente de cero,
definimos su argumento por el ángulo θ ∈ (−π, π] tal que

z = |z|(cos θ + i sen θ). (7)

En este caso, escribimos θ = arg(z).

Observaciones

10
1. Si z = 0 entonces el ángulo θ ∈ (−π, π) no está definido de manera única.
2. Puesto que Re(z) = |z| cos θ y Im(z) = |z| sen θ tenemos que

Im(z)
tan θ = , Re(z) 6= 0,
Re(z)

y θ = π/2 si Re(z) = 0 y Im(z) > 0 y θ = −π/2 si Re(z) = 0 y Im(z) < 0.


Ejemplos
1. z = 1: |z| = 1, arg(z) = 0.
2. z = −i: |z| = 1, arg(z) = −π/2.

3. z = 1 + i: |z| = 2, arg(z) = π/4.

4. z = −1 − 3i: |z| = 2, arg(z) = −2π/3.
La decomposición polar (7) de los números complejos nos lleva a la si-
guiente interpretación geométrica de la multiplicación: Sean z1 = r1 (cos θ1 +
i sen θ1 ), z2 = r2 (cos θ2 + i sen θ2 ) ∈ C. Entonces,

z1 · z2 = r1 r2 [cos θ1 cos θ2 − sen θ1 sen θ2 + i (cos θ1 sen θ2 + sen θ1 cos θ2 )]


= r1 r2 [cos(θ1 + θ2 ) + i sen(θ1 + θ2 )] . (8)

Entonces, el producto de z1 con z2 es el número complejo z = z1 · z2 que tiene


la magnitud |z| = |z1 ||z2 | igual al producto de las magnitudes de z1 y z2 y el
argumento igual a la suma de los argumentos de z1 y z2 (modulo 2π).
La interpretación geométrica de la suma de z1 y z2 es la suma vectorial de
los vectores z1 = (x1 , y1 ) y z2 = (x2 , y2 ) en el plano complejo.

Definición 6 (Fórmula de Euler) Sea θ ∈ R, entonces definimos

exp(iθ) ≡ eiθ := cos(θ) + i sen(θ). (9)

Observaciones
1. La imagen de la función f : R → C, f (θ) := eiθ , θ ∈ R, es el cı́rculo con
radio uno centrado en el origen del plano complejo. En particular,

eiπ/2 = i, eiπ = −1, e−iπ/2 = −i, e2πi = 1.

2. Con la fórmula de Euler podemos reescribir la decomposición polar (7) de


forma mas compacta:

z = reiθ , r = |z|, θ = arg(z).

3. Sean θ1 , θ2 ∈ R, entonces la ecuación (8) implica que

eiθ1 eiθ2 = ei(θ1 +θ2 ) . (10)

11
4. De manera mas general, la función exponencial se puede definir para cual-
quier número complejo z ∈ C de la siguiente manera:

X zk
exp(z) := . (11)
k!
k=0

Esta seria converge en C porque



X |z|k
| exp(z)| ≤ = e|z| < ∞,
k!
k=0

donde hemos usado la convergencia de la serie exponencial para los núme-


ros reales en el último paso (ver el segundo capı́tulo). Ahora, sea z = iθ,
θ ∈ R, entonces

X (iθ)k
exp(iθ) =
k!
k=0
X (iθ)k X (iθ)k
= +
k! k!
k par k impar
∞ ∞
X θ2j X θ2j+1
= i2j +i i2j
j=0
(2j)! j=0
(2j + 1)!
∞ ∞
X θ2j X θ2j+1
= (−1)j +i (−1)j
j=0
(2j)! j=0
(2j + 1)!
= cos θ + i sen(θ).
Entonces la definición general (11) se reduce a la definición (9) para el
caso particular donde z = iθ, θ ∈ R.
Ejemplo: √Sea z = −1 + i. Queremos calcular z 11 . Usando la decomposición
polar, z = 2ei3π/4 , y la propiedad (10) de la exponencial encontramos que
√ √
z 11 = ( 2)11 ei33π/4 = 32 2 eiπ/4 = 32(1 + i).

Ejercicio 3.
(a) Convierta los siguientes números complejos a su forma polar.
√ √
−2 − 2i, 2 + 2 3i, 4 3 − 4i.

(b) Convierta los siguientes números complejos de la forma polar a la forma


Cartesiana.
1 −3πi/4
e3πi , e , 3e−2πi/3 .
2
(c) Use la forma polar para calcular

(1 + 3 i)10 .

12
1.2. Espacios vectoriales
Ahora que definimos los números, introducimos los espacios vectoriales y
analizamos sus propiedades más básicas. Para dar una motivación, empezamos
con un caso familiar, el espacio de los vectores en el plano:
Definición 7 Un vector v = (v1 , v2 ) en el plano R2 es un par ordenado de
números reales v1 , v2 ∈ R. Los números v1 y v2 se llaman las componentes
del vector v. El vector cero está definido por 0 := (0, 0).
Geométricamente, un vector se puede interpretar como el conjunto de todos
los segmentos de recta dirigidos equivalentes a un segmento dirigido dado (una
“flechita”).
Podemos definir las siguientes operaciones sobre el espacio de vectores en el
plano:
Suma de dos vectores v = (v1 , v2 ), w = (w1 , w2 ) ∈ R2 :
v + w := (v1 + w1 , v2 + w2 ). (12)

Multiplicación de un vector v = (v1 , v2 ) ∈ R2 por un escalar λ ∈ R:


λ · v := (λv1 , λv2 ). (13)

La suma de dos vectores y la multiplicación de un vector por un escalar


satisfacen varias leyes. Por ejemplo, la suma es conmutativa y asociativa, y
v + 0 = v y v + (−v) = 0 para todo vector v ∈ R2 en el plano. Luego, la
multiplicación escalar es distributiva y asociativa, y 1 · v = v para todo v ∈ R2 .
Estas leyes caracterizan lo que es un espacio vectorial. De manera más general,
definimos:
Definición 8 Sea F un campo. Un espacio vectorial V sobre F es un con-
junto no vacı́o de elementos, llamados vectores, junto con dos operaciones
+ : V × V → V, (v, w) 7→ v + w, (suma vectorial)
· : F × V → V, (λ, v) 7→ λ · v, (multiplicación por un escalar)
que satisfacen los ocho axiomas siguientes para todo u, v, w ∈ V y λ, µ ∈ F:

(i) v+w =w+v (conmutividad de +)


(ii) (u + v) + w = u + (v + w) (asociatividad de +)
(iii) Existe un vector 0 ∈ V tal que
v + 0 = v para todo v ∈ V . (elemento neutro aditivo)
(iv) Para cada vector v ∈ V existe un
vector −v ∈ V tal que v + (−v) = 0. (inverso additivo)
(v) λ · (v + w) = λ · v + λ · w (primera ley distributiva)
(vi) (λ + µ) · v = λ · v + µ · v (segunda ley distributiva)
(vii) (λ · µ) · v = λ · (µ · v) (ley asosiativa de ·)
(viii) Para cada vector v ∈ V vale 1 · v = v,
donde 1 es el neutro multiplicativo de F (1 es el neutro multiplicativo)

13
Observación: Los axiomas (i)–(iv) son los mismo que los axiomas (A1)–(A4)
para un campo, ver la sección 1.1.1.

Ejemplos
1. Sea V := R2 = {v = (v1 , v2 ) : v1 , v2 ∈ R} con la suma y multiplicación
escalar definidos como en las ecuaciones (12,13). Entonces V forma un
espacio vectorial sobre R: Se satisfacen todos los axiomas (i)–(viii) con
0 := (0, 0) y −v := (−v1 , −v2 ).
2. De manera más general, si F es un campo y n ∈ N, definimos

Fn := {v = (v1 , v2 , . . . , vn ) : v1 , v2 , . . . , vn ∈ F}. (14)

Para v, w ∈ Fn definimos la suma

v + w := (v1 + w1 , v2 + w2 , . . . , vn + wn ),

la multiplicación por un escalar λ ∈ F

λ · v := (λv1 , λv2 , . . . , λvn ),

el inverso aditivo
−v := (−v1 , −v2 , . . . , −vn ),
y el vector cero
0 := (0, 0, . . . , 0).
No es difı́cil verificar que se satisfacen todos los axiomas (i)-(viii), de tal
manera que Fn forma un espacio vectorial sobre F.
Casos particulares son: Qn , Rn y Cn .

3. El espacio vectorial trivial: V := {0} con la suma definida por 0 + 0 :=


0, la multiplicación por un escalar λ ∈ F definida por λ·0 := 0, y el inverso
aditivo por −0 := 0. Este espacio vectorial es el más pequeño de todos, ya
que todo espacio vectorial debe contener por lo menos el neutro aditivo 0.
4. Definimos el espacio V := C([0, 1]), donde

C([0, 1]) := {f : [0, 1] → R : f continuo}

es la clase de funciones continuas sobre el intervalo cerrado [0, 1]. Para


f, g ∈ V y λ ∈ R definimos f + g, λ · f, 0V , −f como las funciones

(f + g)(x) := f (x) + g(x), (15)


(λ · f )(x) := λ · f (x), (16)
0V (x) := 0, (17)
(−f )(x) := −f (x), (18)

14
para todo x ∈ [0, 1]. Dado que la suma de dos funciones continuas es una
función continua, f + g ∈ V . De la misma manera, λ · f , 0V y −f definen
funciones continuas, y por lo tanto son elementos en V . Se puede verificar
que se cumplen todos los axiomas (i)–(viii) de tal manera que V es un
espacio vectorial real (es decir, sobre R).
De manera análoga podemos considerar la clase de funciones continuas
f : [0, 1] → C con valores complejos. En este caso, obtenemos un espacio
vectorial complejo.
5. Si reemplazamos la definición de la suma en la ecuación (15) por

(f + g)(x) := 2f (x) + 2g(x), x ∈ [0, 1],

se siguen satisfaciendo todos los axiomas excepto el axioma (vi):

[(1 + 1) · f ](x) = [2 · f ](x) = 2f (x),

mientras que

[1 · f + 1 · f ](x) = [f + f ](x) = 2f (x) + 2f (x) = 4f (x).

6. Finalmente, consideramos el conjunto

V := {v = (v1 , v2 ) ∈ R2 : v2 ≥ 0},

y definimos la suma, la multipliación por un escalar, el inverso aditivo y


el vector cero como en R2 . En este caso no se satisface el axioma (iv): Por
ejemplo, el vector v := (1, 2) ∈ V no tiene inverso aditivo en V . Además,
la multiplicación escalar está mal definida, porque

λ · (1, 2) ∈
/ V si λ < 0.

Entonces V no es un espacio vectorial.

Proposición 1 (Propiedades elementales de los espacios vectoriales) Sea


V un espacio vectorial sobre F. Entonces valen las afirmaciones siguientes:
(i) λ · 0 = 0 para todo λ ∈ F.
(ii) 0 · v = 0 para todo v ∈ V .

(iii) Si λ · v = 0 entonces λ = 0 o v = 0.
(iv) (−1) · v = −v para todo v ∈ V , donde (−1) es el inverso aditivo de 1 en
F. En particular, el inverso aditivo de v es único.
(v) El elemento neutro aditivo 0 es único.

Demostración.

15
(i) Por el axioma (iii) de la definición del espacio vectorial, 0 + 0 = 0. Usando
el axioma (v) obtenemos

λ · 0 = λ · (0 + 0) = λ · 0 + λ · 0.

Sumando −(λ · 0) a ambos lados de esta ecuación y usando los axiomas


(ii),(iii) y (iv) obtenemos λ · 0 = 0, lo que demuestra (i).
(ii) Aquı́ usamos el axioma (vi) de la definción del espacio vectorial, y obte-
nemos primero
0 · v = (0 + 0) · v = 0 · v + 0 · v.
Sumando −(0 · v) a ambos lados de la ecuación y usando los axiomas
(ii),(iii) y (iv) obtenemos 0 · v = 0, lo que demuestra (ii).
(iii) Supongamos que λ · v = 0 para λ ∈ F y v ∈ V . Si λ 6= 0 podemos
multiplicar ambos lados de esta ecuación por λ−1 , y usando el inciso (i) y
los axiomas (vii) y (viii) de la definición del espacio vectorial llegamos a

0 = λ−1 · (λ · v) = (λ−1 · λ) · v = 1 · v = v.

(iv) Usando el inciso (ii) y los axiomas (vi) y (viii) de la definición del espacio
vectorial obtenemos

0 = 0 · v = [1 + (−1)] · v = 1 · v + (−1) · v = v + (−1) · v.

Sumando −v a ambos lados y usando los axiomas (i)–(iv) llegamos a

−v = (−v) + v + (−1) · v = (−1) · v,

y el inciso (iv) queda demostrado.


(v) Supongamos que existe otro elemento 00 ∈ V tal que v + 00 = v para
todo v ∈ V . En particular, tenemos 0 + 00 = 0, y por el axioma (iii) de
la definición del espacio vectorial tenemos también 00 + 0 = 00 . Usando la
conmutatividad de la suma vectorial concluimos que 00 = 0.

Definición 9 Un subconjunto W ⊂ V de un espacio vectorial V sobre F con la


suma y multiplicación por un escalar definidos sobre V se llama un subespacio
de V si W es en sı́ un espacio vectorial sobre F.

Proposición 2 Un subconjunto no vacı́o W ⊂ V de un espacio vectorial V


sobre un campo F es un subespacio de V si y sólo si
(i) v, w ∈ W implica v + w ∈ W (cerradura bajo la suma),
(ii) λ ∈ F, w ∈ W implican λ · w ∈ W (cerradura bajo la multiplicación por
un escalar).

16
Demostración. Supongamos primero que W es subespacio de V . Entonces
evidentemente se deben satisfacer las condiciones (i) y (ii) de la proposición.
Por otro lado, si W es un subconjunto de V obedeciendo las condiciones (i)
y (ii) de la proposición, verificamos que se satisfacen los axiomas (i)–(viii) de
la definición del espacio vectorial: Los axiomas (i),(ii),(v)–(viii) son evidentes,
porque se hereden de V . Para demostrar la validez del axioma (iii) usamos el
hecho de que W es no vacı́o. Entonces existe un vector w ∈ W , y de acuerdo al
inciso (ii) de la proposición anterior y de la condición (ii) tenemos

0 = 0 · w ∈ W.

Por lo tanto, el neutro aditivo 0 de V también está en W , y vale el axioma (iii).


Finalmente, si w ∈ W , entonces usando el inciso (iv) de la proposición anterior
y la condición (ii) obtenemos

−w = (−1) · w ∈ W,

y concluimos que cada vector w ∈ W posee un inverso aditivo en W .

Observación: Todo subespacio de un espacio vectorial dado V debe contener


el vector cero 0 de V .

Ejemplos
1. Si V es un espacio vectorial, entonces W := {0}, con 0 ∈ V el vector cero
de V , es un subespacio de V . V mismo también es subespacio de V .
2. Sean V := R2 y

W := {v = (v1 , v2 ) ∈ R2 : v1 = 2v2 } ⊂ V.

Entonces W es un subespacio de V , dado que 0 = (0, 0) ∈ W y dado que


para v = (v1 , v2 ), w = (w1 , w2 ) ∈ W y λ ∈ R tenemos

v1 + w1 = 2v2 + 2w2 = 2(v2 + w2 ),


λv1 = 2λv2 ,

de tal manera que v + w y λv son elementos de W . Geometricamente, W


es una recta que pasa por el origen.
3. En cambio, el subconjunto

W 0 := {v = (v1 , v2 ) ∈ R2 : v1 = 2v2 + 1}

no es subespacio de R2 , porque 0 = (0, 0) 6= W 0 . Geometricamente, W 0 es


una recta, pero no pasa por el origen.
4. Consideramos el subconjunto

C := {v = (v0 , v1 , v2 , v3 ) ∈ R4 : v02 = v12 + v22 + v32 }

17
de R4 . Tenemos 0 = (0, 0, 0, 0) ∈ C y λ · w ∈ C para todo λ ∈ R y w ∈ C.
Por otro lado, sean

u := (1, 1, 0, 0) ∈ C,
v := (−1, 1, 0, 0) ∈ C.

Entonces u + v = (0, 2, 0, 0) 6= C. Por lo tanto, C no es subespacio de R4 .


Fisicamente, C es el cono de luz a través del origen en el espacio de
Minkowksi.

Ejercicio 4.
(a) Determine si el subconjuto W dado de V es un subespacio.

(i) W = {w = (w1 , w2 ) ∈ R2 : w1 = w2 }, V = R2 ,
(ii) W = {w = (w1 , w2 ) ∈ C2 : Re(w1 ) = Im(w2 )}, V = C2 ,
(iii) W = {v = (v1 , v2 , v3 ) ∈ R3 : v3 ≥ v2 ≥ v1 ≥ 0}, V = R3 .

(b) Sea V := C([0, 1]) el espacio vectorial de funciones f : [0, 1] → R continuas.


Defina los subconjuntos

W1 := {f (x) = ax2 : a ∈ R},


W2 := {f (x) = x2 + bx + c : b, c ∈ R}.

Determine si W1 y W2 son subespacios de V .

1.3. Independencia lineal, bases, dimensiones


A continuación introducimos el concepto importante de la (in)dependencia
lineal de vectores. Este concepto también lleva a la definición de una base de un
espacio vectorial, que se puede entender como un conjunto mı́nimo de vectores
que genera el espacio vectorial.

Definición 10 Sean v 1 , v 2 , . . . , v n vectores en un espacio vectorial V sobre F.


Entonces se dice que estos vectores son linealmente independientes si la
ecuación

c1 · v 1 + c2 · v 2 + . . . + cn · v n = 0, c1 , c2 , . . . , cn ∈ F, (19)

implica que c1 = c2 = . . . = cn = 0.
Si los vectores v 1 , v 2 , . . . , v n no son linealmente independientes, entonces se
dice que son linealmente dependientes.

18
Definición 11 Sean v 1 , v 2 , . . . , v n vectores en un espacio vectorial V sobre F.
Entonces toda expresión de la forma

c1 · v 1 + c2 · v 2 + . . . + cn · v n ,

con c1 , c2 , . . . , cn ∈ F se llama combinación lineal de v1 , v2 , . . . , vn .


El espacio generado por v1 , v2 , . . . , vn es el conjunto de todas las combi-
naciones lineales de v1 , v2 , . . . , vn . Esto es, el conjunto

hv 1 , v 2 , . . . , v n i := {v = c1 · v 1 + c2 · v 2 + . . . + cn · v n : c1 , c2 , . . . , cn ∈ F}.

Observaciones
1. Si v 1 , v 2 , . . . , v n son vectores linealmente dependientes, entonces existen
números c1 , c2 , . . . , cn ∈ F que no son todos ceros, tales que vale la ecua-
ción (19). Si cj 6= 0 podemos despejar
1 
vj = − c1 · v 1 + . . . cj−1 · v j−1 + cj+1 · v j+1 + . . . + cn · v n ,
cj

es decir, v j ∈ hv1 , . . . , vj−1 , vj+1 , . . . vn i es una combinación lineal de los


otros vectores.
2. El espacio generado por n vectores v1 , v2 , . . . vn de un espacio vectorial V
siempre es un subespacio de V .
Ejemplos
1. Sea V = R3 . Consideramos en V los dos vectores
   
1 1
v :=  2  , w :=  4  .
3 9

La ecuación c1 v + c2 w = 0 es equivalente al sistema de ecuaciones

c1 + c2 = 0,
2c1 + 4c2 = 0,
3c1 + 9c2 = 0,

que tiene como única solución c1 = c2 = 0. Entonces los vectores v y w


son linealmente independientes.
2. Sea V = R3 como en el ejemplo anterior, pero ahora consideramos los
vectores    
1 2
v :=  2  , u :=  4 .
3 6
Dado que u = 2v, o 1 · u − 2 · v = 0, los vectores v y u son linealmente
dependientes. El espacio generado por v y u es hv, ui = hvi = hui.

19
3. Ahora sea V = C2 , y consideramos los dos vectores
   
1 i
v := , w := .
1 −i

La ecuación c1 v + c2 w = 0 es equivalente al sistema de ecuaciones

c1 + ic2 = 0,
c1 − ic2 = 0,

que tiene como única solución c1 = c2 = 0. Por lo tanto, los vectores


v, w ∈ C2 son linealmente independientes.
4. Sea V = R2 el espacio Euclideano con los tres vectores
     
2 −1 1
u := , v := , w := .
3 6 0

La ecuación c1 u + c2 v + c2 w = 0 es equivalente al sistema de ecuaciones

2c1 − c2 + c3 = 0,
3c1 + 6c2 = 0,

que implica c1 = −2c2 , c3 = 5c2 . Aquı́ también, c1 = c2 = c3 = 0 es una


solución del sistema, pero no es la única solución! Una solución no trivial
es (c1 , c2 , c3 ) = (−2, 1, 5), implicando que

−2u + v + 5w = 0.

Concluimos que los vectores u, v, w son linealmente dependientes. Dado


que    
1 1 1
(v + w) = , w=
6 0 0
el espacio generado por u, v, w es todo R2 .

Ejercicio 5. Considere el espacio vectorial complejo

C([0, 1], C) = {f : [0, 1] → C : f continua }.

(a) Defina para cada k ∈ Z las funciones

fk (x) := e2πikx = cos(2πkx) + i sin(2πkx), x ∈ [0, 1].

Muestre que

Z1 
1, k = l,
fk (x)fl (x) dx = δkl :=
0, k 6= l.
0

20
(b) Usando el resultado del inciso (a), muestre que para cada N ∈ N, las
funciones f−N , f−N +1 , . . . , fN son linealmente independientes.

Definición 12 Un conjunto B := {v 1 , v 2 , . . . , v n } de vectores en un espacio


vectorial V se llama base de V si
(i) v1 , v2 , . . . , vn son linealmente independientes, y
(ii) v1 , v2 , . . . , vn generan todo V , es decir, hv1 , v2 , . . . , vn i = V .

Ejemplo: Sea V = C2 y sean


   
1 i
v := , w := .
1 −i

Entonces B = {v, w} es una base de C2 porque


(i) Los vectores v, w son linealmente independientes (ver el ejemplo en la
página 20).
(ii) Sea  
u1
u= ∈ C2
u2
un vector arbitrario en C2 , entonces se puede verificar que
u1 + u2 u1 − u2
u = c1 v + c2 w, c1 = , c2 =
2 2i
y por lo tanto u ∈ hv, wi. Entonces cada vector u ∈ C2 se puede escribir
como combinación lineal de v, w, es decir, hv, wi = C2 .
Otra base de C2 es
   
1 0
B0 = , .
0 1

Proposición 3 (coeficientes de un vector con respecto a una base) Sea


V un espacio vectorial sobre F, y sea B = {v 1 , v 2 , . . . , v n } un base de V . Enton-
ces existe para cada vector u ∈ V un conjunto único de escalares c1 , c2 , . . . , cn ∈
F tal que
u = c1 v 1 + c2 v 2 + . . . + cn v n .
Los escalares c1 , c2 , . . . , cn se llaman los coeficientes de u con respecto a la
base B.

Demostración. La existencia del conjunto de escalares c1 , c2 , . . . , cn ∈ F es


evidente, dado que hv 1 , v 2 , . . . , v n i = V . Para mostrar su unicidad, supongamos
que c01 , c02 , . . . , c0n ∈ F son otros escalares tales que

u = c01 v 1 + c02 v 2 + . . . + c0n v n .

21
Entonces,
0 = u − u = (c1 − c01 )v 1 + (c2 − c02 )v 2 + . . . + (cn − c0n )v n .
Ahora, dado que los vectores v 1 , v 2 , . . . , v n son linealmente independientes, esto
implica que c1 − c01 = c2 − c02 = . . . = cn − c0n = 0, es decir c1 = c01 , c2 = c02 , . . .,
cn = c0n .

Ejemplo: En el ejemplo previo, el vector u ∈ C2 tiene las componentes


1 1
(u1 + u2 ), (u1 − u2 )
2 2i
con respecto a la base B y las componentes
u1 , u2
0
con respecto a la base B .
Ejercicio 6.
(a) Determine si el conjunto de vectores
     
 1 0 0 
B1 :=  1  ,  1  ,  0 
1 1 1
 

forma una base de R3 .


(b) Si es posible, desarrolle el vector
 
3
v =  −1 
−1
con respecto a B1 ; es decir, intente encontrar coeficientes c1 , c2 y c3 en R
tales que      
1 0 0
v = c1  1  + c2  1  + c3  0  .
1 1 1
¿Existen dichos coeficientes ? ¿Son únicos?
(c) Repita el análisis de los incisos (a) y (b) reemplazando B1 por los conjuntos
     
 2 −1 4 
B2 :=  4  ,  5  ,  −6  ,
5 6 −7
 
   
 1 1 
B3 :=  0 , 2  ,
1 3
 
       
 1 0 5 0 
B4 :=  1 , 2 , 3 , 0  .
1 3 2 1
 

22
La siguiente proposición es importante para la definición de la dimensión de
un espacio vectorial.

Proposición 4 Sea V un espacio vectorial sobre un campo F, y sea B =


{v 1 , v 2 , . . . , v n } una base de V . Sean w1 , w2 , . . . , wm m vectores en V que ge-
neran V . Entonces m ≥ n.

Demostración. Por hipótesis, V = hw1 , w2 , . . . , wm i. Esto implica, en parti-


cular, que podemos escribir

v 1 = b1 w 1 + b2 w 2 + . . . + bm w m , b1 , b2 , . . . , bm ∈ F.

Todos los b0j s no pueden ser cero, de otra manera v 1 = 0 no podrı́a ser un
elemento de un conjunto de vectores linealmente independientes. Supongamos
entonces que b1 6= 0 (sino podemos cambiar los indices de w1 , . . . , wm ). Esto
implica que
1
w1 = (v − b2 w2 − . . . − bm wm ) .
b1 1
Entonces w1 ∈ hv 1 , w2 , . . . , wm i y consecuentemente, los vectores v 1 , w2 , . . . , wm
generan V .
Esto en su turno, implica que

v 2 = a1 v 1 + c2 w2 + . . . + cm wm

para escalares a1 , c2 , . . . , cm ∈ F. Los c0j s no pueden ser todos ceros, de otra ma-
nera los vectores v 1 y v 2 serı́an linealmente dependientes. Supongamos entonces
que c2 6= 0, entonces
1
w2 = (v − a1 v 1 − c3 w3 − . . . − cm wm ) ,
c2 2
y w2 ∈ hv 1 , v 2 , w3 , . . . , wm i. Esto implica que los vectors v 1 , v 2 , w3 , . . . , wm ge-
neran V .
Ahora supongamos que m < n. Siguiendo reemplazando los vectores wj ’s
por v j ’s llegamos a m vectores

v1 , v2 , . . . , vm

que generan V . Pero esto implicarı́a que v m+1 ∈ hv 1 , v 2 , . . . , v m i, lo que contra-


decirı́a la independencia lineal de los vectores v 1 , . . . , v n . Por tanto, m ≥ n.

Con este resultado estamos en condiciones de demostrar el siguiente resul-


tado central del álgebra lineal:

Teorema 2 (dimensión de un espacio vectorial) Sean {v 1 , v 2 , . . . , v n } y


{w1 , w2 , . . . , wm } dos bases de un espacio vectorial V . Entones n = m.
El número natural n = m se llama la dimensión de V y se denota por
dim V = n.

23
Demostración. Aplicando el resultado de la Proposición 4 a la base B :=
{v 1 , v 2 , . . . , v n } y los vectores w1 , w2 , . . . , wm que generan V obtenemos m ≥ n.
Intercambiando los papeles de los v j ’s y wj ’s concluimos de la misma manera
que n ≥ m. Entonces n = m.

Teorema 3 Sea V un espacio vectorial de dimensión dim V = n, n ∈ N. Sea


{u1 , u2 , . . . , uk } un conjunto de k vectores en V . Entonces valen las siguientes
afirmaciones:

(i) Si k > n, los vectores u1 , u2 , . . . , uk son necesariamente linealmente de-


pendientes.
(ii) Si k < n, los vectores u1 , u2 , . . . , uk no pueden generar V .
(iii) Si k = n y u1 , u2 , . . . , uk son linealmente independientes, entonces B 0 :=
{u1 , u2 , . . . , uk } es una base de V .

(iv) Si k = n y u1 , u2 , . . . , uk generan V , entonces u1 , u2 , . . . , uk son lineal-


mente independientes y B 0 := {u1 , u2 , . . . , uk } es una base de V .

Demostración. Sea B := {v 1 , v 2 , . . . , v n } una base de V , y sea U := hu1 , u2 , . . . , uk i


el subespacio de V generado por los vectores u1 , u2 , . . . , uk .
(i) Sea k > n y supongamos que los vectores u1 , u2 , . . . , uk son linealmen-
te independientes. Podemos usar el método que usamos en la demostra-
ción de la Proposición 4 para reemplazar todos los v j ’s en el conjunto
{v 1 , v 2 , . . . , v n } por vectores uj ’s y obtener un conjunto

{u1 , u2 , . . . , un }

que genera V . Pero esto implicarı́a que uk ∈ hu1 , u2 , . . . , un i, lo que con-


tradecirı́a la independencia lineal de u1 , u2 , . . . , uk . Por lo tanto, o k ≤ n
o los vectores u1 , u2 , . . . , uk son linealmente dependientes.
(ii) Si U = hu1 , u2 , . . . , uk i = V podemos aplicar el resultado de la Proposi-
ción 4 y concluir que k ≥ n. Por lo tanto, si k < n entonces U 6= V .
(iii) Sean k = n y los vectores u1 , . . . , uk linealmente independientes. Tenemos
que demostrar que U = V .
Si U 6= V entonces existe un vector w ∈ V con w ∈
/ U . Ahora, si a ∈ F y
c1 , . . . , cn ∈ F son tales que

aw + c1 u1 + . . . + cn un = 0,

entonces a = 0 (de otra manera w ∈ U ) y c1 = . . . = cn = 0 (por la


independencia lineal de u1 , . . . , un ). Concluimos que los n + 1 vectores
w, u1 , . . . , un son linealmente independientes y obtenemos una contradic-
ción con el inciso (i).

24
(iv) Sean k = n y U = V . Si los vectores u1 , u2 , . . . , un no fueran linealmente
independientes, entonces existirı́a un j tal que

uj ∈ hu1 , . . . , uj−1 , uj+1 , . . . , un i.

Esto implicarı́a que los n − 1 vectores u1 , . . . , uj−1 , uj+1 , . . . , un generan


V , lo que contradecirı́a el inciso (ii).

Ejemplos
1. Sea V := Rn = {v = (v1 , v2 , . . . , vn ) : v1 , v2 , . . . , vn ∈ R}. Definimos los
vectores
     
1 0 0
 0   1   0 
     
e1 :=  0 , e2 :=  0  , . . . , en :=  0 . (20)
     
 ..   ..   .. 
 .   .   . 
0 0 1

Los n vectores e1 , e2 , . . . , en son linealmente independientes, porque la


ecuación c1 e1 +c2 e2 +. . .+cn en = 0 es equivalente a c1 = c2 = . . . = cn = 0.
Además, los vectores e1 , e2 , . . . , en generan Rn , porque dado un vector
arbitrario  
v1
 v2 
v =  .  ∈ Rn
 
 .. 
vn
tenemos v = v1 e1 + v2 e2 + . . . + vn en . Concluimos que

B := {e1 , e2 , . . . , en }

es una base de Rn y que


dim Rn = n.

Definición 13 La base particular B de Rn definida por los vectores (20)


se llamada la base canónica de Rn .

2. Sea V := Cn = {v = (v1 , v2 , . . . , vn ) : v1 , v2 , . . . , vn ∈ C}. Si consideramos


los vectores (20) como vectores en Cn obtenemos una base de Cn , llamada
base canónica de Cn . Concluimos también que

dim Cn = n.

Observación: Por definición, Cn es un espacio vectorial sobre C. También


podrı́amos considerar Cn como un espacio vectorial sobre R, restringiendo

25
la multiplicación por un escalar λ a valores reales, λ ∈ R, en vez de λ ∈ C.
En este caso, los vectores e1 , e2 , . . . , en definidos en (20) ya no generan
todo el espacio Cn , pero podemos reemplazar B por la nueva base

BR := {e1 , e2 , . . . , en , ie1 , ie2 , . . . , ien }.

Entonces bajo la restricción de considerar solamente la multiplicación por


escalares reales, Cn es un espacio vectorial real de dimensión 2n y escri-
bimos
dimR Cn = 2n.
En particular, el plano complejo C = R2 es un espacio vectorial complejo
de dimensión uno y al mismo tiempo un espacio vectorial real de dimensión
dos.

3. Consideramos el espacio vectorial complejo V := C([0, 1], C) de las fun-


ciones f : [0, 1] → C continuas. Como se verificó en el ejercicio 5, para
cualquier N ∈ N las 2N + 1 funciones fk , k = −N, −N + 1, . . . , N , defini-
das por
fk (x) := e2πikx , x ∈ [0, 1],
son linealmente independientes. De acuerdo al inciso (i) del Teorema 3
esto implica que dim V ≥ 2N + 1. Como N es arbitrario concluimos que

dim V = ∞.

Entonces C([0, 1], C) es un espacio vectorial de dimensión infinita.


4. De la misma manera, se puede mostrar que el espacio vectorial real C([0, 1])
de las funciones continuas f : [0, 1] → R es de dimensión infinita:

Ejercicio 7. Sea V := C([0, 1]) el espacio vectorial real de las funciones conti-
nuas f : [0, 1] → R.

(a) Defina para k = 0, 1, 2, 3, . . . las funciones fk (x) = cos(2πkx), x ∈ [0, 1].


Muestre que

Z 1  1, k = l = 0,
1
fk (x)fl (x)dx = , k = l > 0,
0  2
0, k 6= l.

(b) Usando el resultado del inciso (a), muestre que para cada N ∈ N, las
funciones f0 , f1 , . . . , fN son linealmente independientes.
(c) Concluya que dim V = ∞.

26
1.4. Productos escalares, bases ortonormales (caso real)
En esta sección y la siguiente añadimos una estructure al espacio vectorial:
el producto escalar. La presencia de este producto tiene varias consecuencias
interesante, como la existencia de una norma que permite definir la “longitud”
de un vector y la proyección ortogonal de un vector sobre un subespacio de
dimensión finita, un ingrediente que juega un papel muy importante en la teorı́a
de aproximación, por ejemplo.
En esta sección V denota un espacio vectorial real. El caso de productos
escalares sobre campos vectoriales complejos se analizará en la próxima sección.

Definición 14 Un producto escalar (·, ·) sobre V es una función (·, ·) :


V × V → R tal que
(S) (v, w) = (w, v) (simetrı́a)

(L) (u, λv + w) = λ(u, v) + (u, w) (linealidad en el segundo argumento)


(P) (v, v) ≥ 0 y (v, v) = 0 si y sólo si v = 0 (positividad)
para todo u, v, w ∈ V y todo λ ∈ R.

Observación: Los axiomas (S) y (L) también implican que

(λu + w, v) = λ(u, v) + (w, v)

para todo u, v, w ∈ V y todo λ ∈ R. Entonces el producto escalar también es


lineal en el primer argumento. Se dice que es bilineal, es decir, lineal en ambos
argumentos.

Ejemplos

1. Sea V = Rn . Entonces definimos el producto escalar canónico como

(v, w) := v · w = v1 w1 + v2 w2 + . . . + vn wn (21)

para v = (v1 , v2 , . . . , vn ), w = (w1 , w2 , . . . , wn ) ∈ Rn .


Obviamente, este producto cumple con las propiedades (S) y (L), y

(v, v) = v12 + v22 + . . . + vn2 ≥ 0,

y (v, v) = 0 si y sólo si v = (v1 , v2 , . . . , vn ) = 0.


La interpretación geométrica de este producto escalar es la siguiente: Sean
v, w ∈ Rn , y sea ϕ el ángulo entre v y w. Entonces vale

v · w = |v||w| cos ϕ,
√ p
donde |v| := v · v = v12 + v22 + . . . + vn2 es la magnitud del vector v.

27
2. Existen muchos (de hecho, infinitos) otros productos escalares sobre Rn .
Por ejemplos, sean α1 , α2 , . . . , αn números reales que son estrictamente
positivos. Entonces también podemos definir

(v, w)α := α1 v1 w1 + α2 v2 w2 + . . . + αn vn wn , (22)

para v = (v1 , v2 , . . . , vn ), w = (w1 , w2 , . . . , wn ) ∈ Rn . No es difı́cil conven-


cerse que este producto también cumple con las propiedades (S), (L) y
(P), de tal manera que define un producto escalar sobre Rn .
Por otro lado, si uno de los αj ’s fuera cero, por ejemplo α2 = 0, se
cumplirı́an las propiedades (S) y (L) pero no (P), porque en este caso
tendrı́amos que (e2 , e2 ) = 0 y e2 6= 0, donde el vector e2 está definido en
la ecuación (20).
3. Sea V = C([0, 1]) el espacio vectorial de las funciones f : [0, 1] → R
continuas. Como vimos en la sección anterior V es un espacio vectorial
real de dimensión infinita. Definimos sobre V el producto

Z1
(f, g) := f (x)g(x)dx, f, g ∈ V. (23)
0

Obviamente, este producto es simétrico: (f, g) = (g, f ) para todo f, g ∈ V .


Además,

Z1
(f, λg + h) = f (x)(λg(x) + h(x))dx
0
Z1 Z1
= λ f (x)g(x)dx + f (x)h(x)dx
0 0
= λ(f, g) + (f, h)

para todo λ ∈ R y f, g, h ∈ V . Finalmente, notamos que

Z1
(f, f ) = f (x)2 dx ≥ 0
0

para todo f ∈ V , y dado que f es continua, (f, f ) = 0 implica que f (x) = 0


para todo x ∈ [0, 1], es decir, f = 0.

Definición 15 Sea V un espacio vectorial real con producto escalar (·, ·). En-
tonces definimos:
(i) Dos vectores v y w en V se llaman ortogonales si vale (v, w) = 0.

28
(ii) La norma (o magnitud) de un vector v en V está definida por
p
|v| := (v, v). (24)

(Notamos que esta definición tiene sentido en virtud de la propiedad (P)


del producto escalar.)

Ejercicio 8. Sea V un espacio vectorial real con producto escalar (·, ·) y norma
inducida | · |. Demuestre las siguientes identidades:
(a) |v + w|2 = |v|2 + |w|2 para dos vectores ortogonales v, w ∈ V (Pitágoras)
(b) (v, w) = 14 |v + w|2 − |v − w|2 (identidad de polarización)


Proposición 5 (Propiedades elementales de la norma) Sea V un espa-


cio vectorial real con producto escalar (·, ·). Entonces valen las siguientes afir-
maciones:
(i) |v| ≥ 0 para todo v ∈ V y |v| = 0 si y sólo si v = 0.
(ii) |λ · v| = |λ||v| para todo λ ∈ R y todo v ∈ V .
(iii) |(v, w)| ≤ |v||w| para todo v, w ∈ V (desigualdad de Cauchy-Schwarz)
(iv) |v + w| ≤ |v| + |w| para todo v, w ∈ V (desigualdad del triángulo)

Demostración.
p
(i) Obviamente, |v| = (v, v) ≥ 0 para todo v ∈ V , y |v| = 0 si v = 0. Por
otro lado, si |v| = 0, entonces (v, v) = 0 y el axioma (P) implica que v = 0.
(ii) Sean λ ∈ R y v ∈ V . Entonces
p p p
|λ · v| = (λv, λv) = λ2 (v, v) = |λ| (v, v) = |λ||v|,

donde en el segundo paso usamos las propiedades (S) y (L) del producto
escalar.
(iii) Sean v, w ∈ V . Usando la bilinealidad del producto escalar encontramos
que

0 ≤ |v + λw|2 = (v + λw, v + λw)


= (v, v) + λ(v, w) + λ(w, v) + λ2 (w, w)
= |v|2 + 2λ(v, w) + λ2 |w|2

para todo λ ∈ R. Esto implica que

(v, w) − |v|2 |w|2 ≤ 0,

o |(v, w)| ≤ |v||w|.

29
(iv) Sean v, w ∈ V . Entonces usando nuevamente la bilinealidad del producto
escalar y el resultado del inciso anterior encontramos que
|v + w|2 = |v|2 + 2(v, w) + |w|2
≤ |v|2 + 2|v||w| + |w|2 = (|v| + |w|)2 ,
lo que implica la afirmación.

Ejemplo: Sea V = C([0, 1]) el espacio vectorial de las funciones f : [0, 1] → R


continuas con el producto escalar
Z1
(f, g) := f (x)g(x)dx, f, g ∈ V.
0

Para f (x) := x y g(x) := x2 , x ∈ [0, 1], tenemos que


Z1
2 1
|f | = (f, f ) = x2 dx = ,
3
0
Z1
2 1
|g| = (g, g) = x4 dx = ,
5
0
Z1
1
(f, g) = x3 dx = .
4
0

Efectivamente,
1 1
= (f, g) ≤ |f ||g| = √ .
4 15
Definición 16 Un conjunto de vectores B = {v 1 , v 2 , . . . , v n } en un espacio
vectorial real con producto escalar (·, ·) se llama conjunto ortonormal en V
si 
1, j = k,
(v j , v k ) = δjk := (25)
0, j 6= k.
Si además los vectores v 1 , v 2 , . . . , v n generan V , B se llama base ortonormal
de V .
Observación: Los vectores de cualquier conjunto ortonormal {v 1 , v 2 , . . . , v n }
en V son linealmente independientes, por si
c1 v 1 + c2 v 2 + . . . + cn v n = 0,
entonces tomamos el producto escalar de esta ecuación con v j y usando la
bilinealidad del producto escalar y la propiedad (25) concluimos que cj = 0
para j = 1, 2, . . . , n.

30
Ejemplo: Consideramos V = Rn con el producto escalar canónico (v, w) = v·w,
v, w ∈ Rn , ver el ejemplo en la página 27. Sean
     
1 0 0
 0   1   0 
     
e1 :=  0  , e2 :=  0  , . . . , en :=  0  .
     
 ..   ..   .. 
 .   .   . 
0 0 1

los vectores que definen la base canónica en Rn . Entonces vale ej · ek = δjk para
j, k = 1, 2, . . . , n y e1 , e2 , . . . , en generan V . Por estas razones, {e1 , e2 , . . . , en }
es una base ortonormal de Rn .
Dado una base ortonormal B, es fácil calcular las componentes de un vector
v dado con respecto a B:

Teorema 4 (expansión de Fourier) Sea V un espacio vectorial real de di-


mensión finita n < ∞ con producto escalar (·, ·). Sea B = {v 1 , v 2 , . . . , v n } una
base ortonormal de V . Entonces vale para todo v ∈ V :

v = c1 v 1 + c2 v 2 + . . . + cn v n , (expansión de Fourier) (26)

donde las componentes de v con respecto a B son dadas por

cj = (v j , v), j = 1, 2, . . . , n, (coeficientes de Fourier) (27)

Demostración. Dado que B es una base de V , sabemos de la Proposición 3


que existen números reales únicos c1 , c2 , . . . , cn tales que vale la expansión (26).
Tomando el producto escalar con v j de ambos lados de esta expansión y usando
el hecho de que B es un conjunto ortonormal encontramos enseguida

(v j , v) = cj , j = 1, 2, . . . , n.

¿Qué podemos decir si el espacio vectorial V tiene dimensión infinita? En


este caso podemos proyectar los vectores en V sobre un subespacio W ⊂ V
de dimensión finita.

Definición 17 Sea W ⊂ V un subespacio de dimenión finita de un espacio


vectorial real V (no necesariamente de dimensión finita) con producto escalar
(·, ·). Sea {w1 , w2 , . . . , wn } una base ortonormal de W . Entonces definimos para
todo v ∈ V la proyección ortogonal de v sobre W por el vector

projW (v) := (w1 , v)w1 + (w2 , v)w2 + . . . + (wn , v)wn ∈ W. (28)

Proposición 6 (Propiedades básicas de la proyección ortogonal) Sea


W ⊂ V un subespacio de dimensión finita de un espacio vectorial real V con
producto escalar (·, ·), y sea projW : V → V el proyector ortogonal sobre W
definido en la ecuación (28). Entonces valen

31
(i) projW (v) = v si y sólo si v ∈ W
(ii) projW (projW (v)) = projW (v) para todo v ∈ V .
(iii) (w, v − projW (v)) = 0 para todo w ∈ W y v ∈ V .
(iv) projW (v) es independiente de la elección de la base {w1 , w2 , . . . , wn } de
W.

Demostración.

(i) Si v ∈ W , entonces el Teorema 4 implica que projW (v) = v. Por otro lado,
si v ∈ V satisface v = projW (v), entonces obviamente v = projW (v) ∈ W .
(ii) Sean v ∈ V y w := projW (v) ∈ W . Entonces el inciso (i) implica que
projW (w) = w, lo que demuestra (ii).

(iii) Sea v ∈ V . Por definición,

projW (v) = (w1 , v)w1 + (w2 , v)w2 + . . . + (wn , v)wn ,

donde w1 , w2 , . . . , wn es una base ortonormal de W . Tomando el pro-


ducto escalar con wj de ambos lados de esta ecuación encontramos que
(wj , projW (v)) = (wj , v), por lo que

(wj , v − projW (v)) = (wj , v) − (wj , v) = 0.

Dado que los vectores w1 , w2 , . . . , wn generan W , esto implica que (w, v −


projW (v)) = 0 para todo w ∈ W por la bilinealidad del producto escalar.

(iv) Sea B 0 := {w01 w02 , . . . , w0n } otra base ortonormal de W , y sea

proj0W (v) := (w01 , v)w01 + (w02 , v)w02 + . . . + (w0n , v)w0n (29)

Por otro lado, dado que projW (v) ∈ W el Teorema 4 aplicado a la base
B 0 implica que

projW (v) = (w01 , projW (v))w01 + . . . + (w0n , projW (v))w0n (30)

Tomando la diferencia entre las dos ecuaciones (29,30) y usando el resul-


tado del inciso (iii) obtenemos

projW (v) = proj0W (v).

Ejemplo: Sean V = R3 con el producto escalar canónico y W el plano dado


por
W := {(x, y, z) ∈ R3 : x + y + z = 0}.

32
No es difı́cil verificar que B = {w1 , w2 }, donde
   
1 1
1  1
w1 := √ 0 , w2 := √  −2  ,
2 −1 6 1

es una base ortonormal de W . Entonces si v ∈ R3 ,

projW (v) = (w1 , v)w1 + (w2 , v)w2


   
1 1
1 1
= (v1 − v3 )  0  + (v1 − 2v2 + v3 )  −2 
2 6
−1 1
 
2v1 − v2 − v3
1
= −v1 + 2v2 − v3  .
3
−v1 − v2 + 2v3

Por supuesto, en este ejemplo V es de dimensión finita. En este caso, otra


manera de calcular la proyección ortogonal sobre el plano W es introducir el
vector normal  
1
1 
n := √ 1 
3 1
y notar que {n, w1 , w2 } es una base ortonormal de R3 . Por el Teorema 4 sabemos
que
v = (n, v)n + (w1 , v)w1 + (w2 , v)w2 = (n, v)n + projW (v),
de tal manera que

projW (v) = v − (n, v)n


   
v1 1
1
=  v2  − (v1 + v2 + v3 )  1 
3
v3 1
 
2v1 − v2 − v3
1
= −v1 + 2v2 − v3  ,
3
−v1 − v2 + 2v3

lo que coincide con el resultado anterior.


Ejercicio 9. Considere el espacio vectorial R4 con el producto escalar canónico

v · w := v1 w1 + v2 w2 + v3 w3 + v4 w4

para v = (v1 , v2 , v3 , v4 ), w = (w1 , w2 , w3 , w4 ) ∈ R4 . Defina el subconjunto

W := {w = (w1 , w2 , w3 , w4 ) ∈ R4 : w1 +w2 +w3 +w4 = 0 y 2w2 −w3 +w4 = 0}.

(a) Muestre que W es un subespacio de V .

33
(b) Construya una base ortonormal de W y determine su dimensión.
(c) Encuentre la proyección ortogonal projW (v) del vector
 
0
 1 
v=  −2 

sobre W .

Teorema 5 (aproximaciones) Sea W ⊂ V un subespacio de dimensión fi-


nita de un espacio vectorial real V con producto escalar (·, ·). Entonces dado
v ∈ V , su proyección ortogonal sobre W , projW (v) ∈ W , es la mejor aproxima-
ción de v dentro del espacio W , es decir valen para todo w ∈ W ,
|v − projW (v)| ≤ |v − w|,
|v − projW (v)| = |v − w| si y sólo si w = projW (v).

Demostración. Sea u := v − projW (v). De acuerdo a la Proposición 6(iii), u


es ortogonal a todos los vectores w ∈ W . Por tanto, usando la ley de Pitágoras,

|u + w|2 = |u|2 + |w|2 ,

y vale
|u|2 = |u + w|2 − |w|2
para todo w ∈ W . Reemplazando w por projW (v) − w ∈ W obtenemos

|v − projW (v)|2 = |v − w|2 − |projW (v) − w|2

para todo w ∈ W , lo cual implica la afirmación del teorema.

Ejemplo: Sea V = C([0, 1]) el espacio vectorial de las funciones f : [0, 1] → R


continuas. Definimos sobre V las funciones f0 , f1 , f2 , . . . por

fk (x) := 2 cos(2πkx), x ∈ [0, 1], k = 0, 1, 2, . . . ,

y el producto escalar
Z1
(f, g) := f (x)g(x)dx, f, g ∈ V.
0

Su puede verificar que (fj , fk ) = δjk para j, k ∈ N0 , de tal manera que para
cada N ∈ N el conjunto {f0 , f1 , . . . , fN } es ortonormal.
Defina el subespacio W := hf0 , f1 i, dim W = 2, de V y la función h ∈ V por

1 − x, 0 ≤ x ≤ 12 ,

h(x) :=
x, 12 ≤ x ≤ 1.

34
Entonces la mejor aproximación de h en el subespacio W es
projW (h) = (h, f0 )f0 + (h, f1 )f1 .
Un pequeño cálculo revela que
Z1
3
(h, f0 ) = h(x)dx = ,
4
0
1 1 √
√ Z √ Z 2
(h, f1 ) = 2 h(x) cos(2πx)dx = 2 2 x cos(2πx)dx = 2 .
π
0 1/2

Concluimos que
3 2
projW (h)(x) = + cos(2πx), 0 ≤ x ≤ 1.
4 π2

Ejercicio 10. Sea V = C([−π, π]) el espacio vectorial real de funciones


[−π, π] → R continuas con producto escalar
Z π
1
(f, g) = f (x)g(x)dx, f, g ∈ V.
2π −π
(a) √
Defina la función f0 (x)
√ = 1 y para k = 1, 2, 3, . . . las funciones fk (x) =
2 cos(kx), gk (x) = 2 sen(kx), x ∈ [−π, π]. Sean N ∈ N,
BN := {f0 , f1 , . . . , fN , g1 , . . . , gN }
y WN el subespacio de V generado por los vectores en BN .
Muestre que BN es una base ortonormal de WN .1
(b) Sea h(x) = x4 , x ∈ [−π, π]. Calcule la proyección ortogonal
hN := projWN (h)
de la función h sobre el subespacio WN .2
(c) Asumiendo que hN converge a h cuando N → ∞, muestre que

X 1 π4
= .
j=1
j4 90

1 Use las fórmulas trigonométricas


2 cos(α) cos(β) = cos(α + β) + cos(α − β),
2 cos(α) sen(β) = sen(α + β) − sen(α − β),
2 sen(α) sen(β) = cos(α − β) − cos(α + β).

2 Note que h es una función par.

35
1.5. Productos escalares, bases ortonormales (caso com-
plejo)
En esta sección analizamos los productos escalares sobre un espacio vectorial
V que es complejo. Entonces queremos generalizar los axiomas (S), (L) y (P) pa-
ra el caso complejo. En un principio, podrı́amos intentar proponer exactamente
los mismos axiomas, pero esta definición presentarı́a la siguiente inconsistencia:
Sea v ∈ V un vector que es diferente de cero. Entonces (P) implicarı́a que

(v, v) > 0,

mientras que (S) y (L) implicarı́an que

(iv, iv) = i(iv, v) = i(v, iv) = i2 (v, v) = −(v, v) < 0,

y obtendrı́amos una contradicción. Por esta razón, en el caso complejo, es nece-


sario cambiar el axioma (S).

Definición 18 Un producto escalar (·, ·) sobre un espacio vectorial com-


plejo V es una función (·, ·) : V × V → C tal que
(S̄) (v, w) = (w, v) (simetrı́a)
(L) (u, λv + w) = λ(u, v) + (u, w) (linealidad en el segundo argumento)
(P) (v, v) ≥ 0 y (v, v) = 0 si y sólo si v = 0 (positividad)
para todo u, v, w ∈ V y todo λ ∈ C.

Observaciones
1. Si (v, w) es real, (v, w) = (w, v) y recuperamos el axioma (S).
2. Ahora los axiomas (S̄) y (L) implican que

(λu + v, w) = λ(u, w) + (v, w),

para todo u, v, w ∈ V y todo λ ∈ C, entonces el producto escalar es lineal


en el segundo argumento y anti-lineal en el primero.
Es importante mencionar que existe otra convención que postula
que el producto escalar es lineal en el primero y anti-lineal en el
segundo argumento. Aquı́ adoptamos la convención que es más
frecuente en la fı́sica.
3. Ahora si v ∈ V y v 6= 0 tenemos

(iv, iv) = i i(v, v) = (v, v) > 0,

y no hay contradicción con (P).


Ejemplos

36
1. Definimos el producto escalar canónico en Cn como

(v, w) := v · w = v1 w1 + v2 w2 + . . . + vn wn (31)

para v = (v1 , v2 , . . . , vn ), w = (w1 , w2 , . . . , wn ) ∈ Cn .


Obviamente, este producto cumple con las propiedades (S̄) y (L), y

(v, v) = |v1 |2 + |v2 |2 + . . . + |vn |2 ,

entonces (v, v) ≥ 0 y (v, v) = 0 si y sólo si v = (v1 , v2 , . . . , vn ) = 0.


2. Sea V = C([0, 1], C) el espacio vectorial de las funciones f : [0, 1] → C
continuas. Como vimos en el ejemplo en la página 26 V es un espacio
vectorial complejo de dimensión infinita. Definimos sobre V el producto

Z1
(f, g) := f (x)g(x)dx, f, g ∈ V, (32)
0

es decir, si f (x) = f1 (x) + if2 (x) y g(x) = g1 (x) + ig2 (x) con f1 , f2 , g1 , g2 :
[0, 1] → R, entonces

Z1
(f, g) = [f1 (x)g1 (x) + f2 (x)g2 (x)] dx
0
Z1
+ i [f1 (x)g2 (x) − f2 (x)g1 (x)] dx.
0

Obviamente, (f, g) = (g, f ) para todo f, g ∈ V y también vale

(f, λg + h) = λ(f, g) + (f, h)

para todo f, g, h ∈ V y λ ∈ C. Finalmente,

Z1
(f, f ) = |f (x)|2 dx ≥ 0
0

para todo f ∈ V , y dado que f es continua, (f, f ) = 0 implica que f (x) = 0


para todo x ∈ [0, 1], es decir, f = 0.
Entonces (·, ·) define un producto escalar sobre C([0, 1], C).

Como en el caso real definimos:

Definición 19 Sea V un espacio vectorial complejo con producto escalar (·, ·).
Entonces definimos:

37
(i) Dos vectores v y w en V se llaman ortogonales si vale (v, w) = 0.
(ii) La norma (o magnitud) de un vector v en V está definida por
p
|v| := (v, v). (33)

Proposición 7 (Propiedades elementales de la norma) Sea V un espa-


cio vectorial complejo con producto escalar (·, ·). Entonces valen las siguientes
afirmaciones:
(i) |v| ≥ 0 para todo v ∈ V y |v| = 0 si y sólo si v = 0.
(ii) |λ · v| = |λ||v| para todo λ ∈ C y todo v ∈ V .
(iii) |(v, w)| ≤ |v||w| para todo v, w ∈ V (desigualdad de Cauchy-Schwarz)
(iv) |v + w| ≤ |v| + |w| para todo v, w ∈ V (desigualdad del triángulo)
Demostración. Las afirmaciones (i),(ii) y (iv) se demuestran exactamente co-
mo en el caso real, ver la demostración de la Proposición 5. Para el inciso (iii)
tomamos v, w ∈ V y notamos que
0 ≤ |v + λw|2 = (v + λw, v + λw)
= (v, v) + λ(w, v) + λ(v, w) + |λ|2 (w, w)
= (v, v) + λ(v, w) + λ(v, w) + |λ|2 (w, w)
= |v|2 + 2Re [λ(v, w)] + |λ|2 |w|2
para todo λ ∈ C. Ahora usamos la descomposición polar de los números com-
plejos para escribir
(v, w) = reiϕ , r = |(v, w)|,
con ϕ real, y elegimos λ := te−iϕ con t ∈ R. Entonces λ(v, w) = r t, |λ|2 = t2 y
obtenemos la desigualdad
0 ≤ |v|2 + 2rt + |w|2 t2
para todo t ∈ R. Esto implica r2 − |v|2 |w|2 ≤ 0, o
|(v, w)| ≤ |v||w|.

Como en el caso real se define:


Definición 20 Un conjunto de vectores B = {v 1 , v 2 , . . . , v n } en un espacio
vectorial complejo con producto escalar (·, ·) se llama conjunto ortonormal
en V si 
1, j = k,
(v j , v k ) = δjk = (34)
0, j 6= k.
Si además los vectores v 1 , v 2 , . . . , v n generan V , B se llama base ortonormal
de V .

38
Ejemplo: Consideramos V = Cn con el producto escalar canónico (v, w) = v·w,
v, w ∈ Cn , ver el ejemplo en la página 37. Sean
     
1 0 0
 0   1   0 
     
e1 :=  0  , e2 :=  0  , . . . , en :=  0  .
     
 ..   ..   .. 
 .   .   . 
0 0 1

los vectores que definen la base canónica en Cn . Entonces vale ej · ek = δjk para
j, k = 1, 2, . . . , n y e1 , e2 , . . . , en generan V . Por estas razones, {e1 , e2 , . . . , en }
es una base ortonormal de Cn .

Teorema 6 (expansión de Fourier) Sea V un espacio vectorial complejo de


dimensión finita n < ∞ con producto escalar (·, ·). Sea B = {v 1 , v 2 , . . . , v n } una
base ortonormal de V . Entonces vale para todo v ∈ V la expansión:

v = c1 v 1 + c2 v 2 + . . . + cn v n , cj = (v j , v), j = 1, 2, . . . , n. (35)

Demostración. Como en el caso real, ver el Teorema 4.

Definición 21 Sea W ⊂ V un subespacio de un espacio vectorial complejo V


con producto escalar (·, ·) tal que dim W = n < ∞. Sea {w1 , w2 , . . . , wn } una
base ortonormal de W . Entonces definimos para todo v ∈ V la proyección
ortogonal de v sobre W por el vector

projW (v) := (w1 , v)w1 + (w2 , v)w2 + . . . + (wn , v)wn ∈ W. (36)

Como en el caso real se demuestra:

Teorema 7 (Propiedades de la proyección ortogonal) Sea W ⊂ V un subes-


pacio de un espacio vectorial complejo V con producto escalar (·, ·) tal que
dim W = n < ∞. Entonces valen las siguientes afirmaciones:
(i) projW (v) = v si y sólo si v ∈ W
(ii) projW (projW (v)) = projW (v) para todo v ∈ V .
(iii) Para cada v ∈ V , v − projW (v) es ortogonal a todo w ∈ W .
(iv) projW (v) es independiente de la elección de la base {w1 , w2 , . . . , wn } de
W.
(v) projW (v) ∈ W , es la mejor aproximación de v dentro del espacio W , es
decir valen para todo w ∈ W ,
|v − projW (v)| ≤ |v − w|,
|v − projW (v)| = |v − w| si y sólo si w = projW (v).

39
Terminamos esta sección con un ejemplo relacionado con la teorı́a de Fourier.

Ejemplo: Sea V := C([−π, π], C) el espacio vectorial complejo de las funciones


f : [−π, π] → C que son continuas. Definimos sobre V el producto escalar

1
(f, g) := f (x)g(x)dx, f, g ∈ V.

−π

Sean N ∈ N y WN := hf−N , f−N +1 , . . . , fN i los subespacios generados por las


funciones
fj (x) := eijx , j ∈ Z, −π ≤ x ≤ π.
Las funciones fj son continuas y satisfacen

1
(fj , fk ) = ei(k−j)x dx = δjk .

−π

Entonces concluimos que las funciones f−N , f−N +1 , . . . , fN forman una base
ortonormal de WN y que por lo tanto dim WN = 2N + 1.
Ahora, sea h ∈ V la función definida por h(x) = x2 , −π ≤ x ≤ π. Vamos
a calcular la proyección ortogonal hN := projWN (h) de h sobre los subespacios
WN . Por definición,
N
X N
X
hN (x) = (fj , h)fj (x) = (fj , h)eijx .
j=−N j=−N

Calculamos
Zπ π
1 2 1 x3 π2
(f0 , h) = x dx = = ,
2π 2π 3 x=−π 3
−π

y para j ∈ Z, j 6= 0,

1 2
(fj , h) = x2 e−ijx dx = (−1)j ,
2π j2
−π

donde usamos dos veces integración por partes. Entonces,


−1
X N
X
hN (x) = (f0 , h) + (fj , h)eijx + (fj , h)eijx
j=−N j=1
−1 N
π2 X 2 ijx X 2
= + (−1)j e + (−1)j 2 eijx
3 j2 j=1
j
j=−N
N
π2 X (−1)j ijx
= +2 2
(e + e−ijx ).
3 j=1
j

40
Finalmente, usando el hecho de que eijx + e−ijx = 2 cos(jx) llegamos a
N
π2 X (−1)j
hN (x) = +4 cos(jx), −π ≤ x ≤ π. (37)
3 j=1
j2

Conforme N crezca, los subespacio WN contienen más y más vectores de V .


Por esta razón, podemos esperar que la proyección hN de h, que es la mejor
aproximación de h sobre WN , converja a h en el lı́mite N → ∞. La teorı́a de
Fourier que se analizará en detalle en el curso de Métodos Matemáticos de la
maestrı́a, da condiciones suficiente para la convergencia de hN a h en el lı́mite
N → ∞.
Eligiendo x = 0 o x = π y asumiendo que hN (x) → h(x) en el lı́mite N → ∞
obtenemos de (37) las siguientes series interesantes

X (−1)j−1 1 1 1 π2
=1− + − + ... = (38)
j=1
j2 4 9 16 12

y

X 1 1 1 1 π2
= 1 + + + + . . . = . (39)
j=1
j2 4 9 16 6

Ejercicio 11.

p con producto escalar (·, ·) y norma


(a) Sea V un espacio vectorial complejo
inducida k · k definida por kuk := (u, u) para u ∈ V . Demuestre que k · k
satisface la ley del paralelogramo:

ku + vk2 + ku − vk2 = 2kuk2 + 2kvk2 , u, v ∈ V,

y que el producto escalar está determinado por la norma a través de la


identidad de polarización:
1
ku + vk2 − ku − vk2 − iku + ivk2 + iku − ivk2 ,

(u, v) = u, v ∈ V.
4

(b) Como caso concreto, consideremos el espacio vectorial V := C([0, 1], C) de


las funciones continuas f : [0, 1] → C. Para cada p ≥ 1 definimos sobre V
la norma k · kp por
 1/p
Z1
kf kp :=  |f (x)|p dx , f ∈ V.
0

Demuestra que esta norma proviene de un producto escalarpsobre V , es


decir, existe un producto escalar (·, ·) sobre V tal que kuk := (u, u) para
todo u ∈ V , si y sólo si p = 2.

41
(c) (opcional)
Sea V un espacio vectorial complejo con una norma, es decir, una función
k · k : V → R que satisface las condiciones
(i) kuk ≥ 0 para todo u ∈ V y kuk = 0 si y sólo si u = 0 (positividad)
(ii) kλ · uk = |λ|kuk para todo λ ∈ C y todo u ∈ V .
(iii) ku + vk ≤ kuk + kvk para todo u, v ∈ V (desigualdad del triángulo)
Demuestre que k · k proviene de un producto escalar sobre V si y sólo si
k · k satisface la ley del paralelogramo.

1.6. Transformaciones lineales y matrices


En esta sección analizamos mapeos particulares de un espacio vectorial a
otro, las transformaciones lineales. Estas transformaciones juegan un papel muy
importante en varias áreas de la fı́sica.

Definición 22 Sea F un campo, y sean V y W dos espacios vectoriales sobre


F. Una transformación lineal (o operador lineal) es un mapeo A : V → W
que asigna a cada vector v ∈ V un único vector A(v) ∈ W tal que

A(v + λw) = A(v) + λA(w) (40)

para todo v, w ∈ V y todo λ ∈ F.

Observación: Sean 0V y 0W los vectores cero en V y W , respectivamente.


Usando la propiedad (40) encontramos que

A(0V ) = A(0V + 1 · 0V ) = A(0V ) + 1 · A(0V ) = 2A(0V ),

y por lo tanto vale


A(0V ) = 0W
para cada transformación lineal A : V → W . Aplicando la condición (40) suce-
sivamente, también encontramos que

A(c1 v 1 + c2 v 2 + . . . + cn v n ) = c1 A(v 1 ) + c2 A(v 2 ) + . . . + cn A(v n ) (41)

para n vectores v 1 , v 2 , . . . , v n ∈ V y n números c1 , c2 , . . . , cn ∈ F arbitrarios , es


decir, A preserva las combinaciones lineales.

Ejemplos
1. Sean V = R3 y W = R2 . Definimos el mapeo A : V → W a través de
 
  v1
v1 + v2
A(v) := , v =  v2  ∈ V.
v2 − v 3
v3

42
Entonces vale para todo v, w ∈ V y todo λ ∈ R,
 
v1 + λw1
A(v + λw) = A  v2 + λw2 
v3 + λw3
 
v1 + λw1 + v2 + λw2
=
v2 + λw2 − v3 − λw3
   
v1 + v2 w1 + w2
= +λ
v2 − v3 w2 − w3
   
v1 w1
= A(v) + λA(w), v =  v2  , w =  w 2  .
v3 w3

Por lo tanto, A es una transformación lineal de R3 a R2 .


2. Sean V y W espacios vectoriales sobre el mismo campo F. Entonces A :
V → W definido por A(v) := 0W para cada v ∈ V es una transformación
lineal llamada transformación cero.
3. Sea V un espacio vectorial. Defina I : V → V por I(v) := v para cada
v ∈ V . Entonces I es una transformación lineal llamada transformación
identidad o operador identidad.
4. Sean V = C([0, 1], C) y W = C. Definimos el mapeo T : V → W por
Z1
T (f ) := f (x)dx, f ∈ V.
0

Puesto que
Z1 Z1 Z1
T (f + λg) = (f (x) + λg(x))dx = f (x)dx + λ g(x)dx
0 0 0
= T (f ) + λT (g)

para todo f, g ∈ V y todo λ ∈ C, concluimos que T es una transformación


lineal.
5. Sea

V := C 1 ([0, 1]) := {f : [0, 1] → R : f diferenciable con derivada continua}.

Es fácil verificar que V es un espacio vectorial real. Además, sea W :=


C([0, 1]) el espacio vectorial de las funciones continuas sobre el intervalo
[0, 1]. Definimos A : V → W por
d
(Af )(x) := f (x), f ∈ V, 0 ≤ x ≤ 1.
dx

43
Puesto que para todo f, g ∈ V , λ ∈ R y x ∈ [0, 1] vale

d
[A(f + λg)](x) = (f + λg)(x)
dx
d d
= f (x) + λ g(x) = (Af )(x) + λ(Ag)(x),
dx dx
concluimos que A es una transformación lineal.
6. Sea V un espacio vectorial sobre F = R o C con producto escalar (·, ·) :
V × V → F. Sea u ∈ V fijo, entonces la función Tu : V → F definida por

Tu (v) := (u, v), v ∈ V,

define una transformación lineal, debido a la linealidad (L) del producto


escalar en su segundo argumento.
En particular, si W ⊂ V es un subespacio de dimensión finita de V , el
mapeo projW : V → W definida por (ver las ecuaciones (28,36)

projW (v) := (w1 , v)w1 + (w2 , v)w2 + . . . + (wn , v)wn , v ∈ V,

donde {w1 , w2 , . . . , wn } es una base ortonormal de W , es una transforma-


ción lineal. Se llama el proyector ortogonal sobre W .

7. Sean V := R2 y W := R, entonces el mapeo A : V → W definido por


   
v1 v1
A := v1 + v2 + 1, ∈ R2 ,
v2 v2

no define una transformación lineal dado que A(0) 6= 0.

1.6.1. Núcleo, imagen, invertibilidad de transformaciones lineales


A continuación introducimos dos subespacios importantes que son asociados
a una transformación lineal: El núcleo y la imagen.

Definición 23 Sean V y W espacios vectoriales sobre el mismo campo F, y sea


A : V → W una transformación lineal. Definimos
(i) El núcleo (o kernel) de A:

ker(A) := {v ∈ V : A(v) = 0W } ⊂ V (42)

(ii) La imagen de A:

Rg(A) := {A(v) : v ∈ V } ⊂ W. (43)

Observaciones

44
1. La linealidad de A implica que ker(A) es un subespacio de V y que Rg(A)
es un subespacio de W . En particular, ker(A) y Rg(A) no pueden ser
vacı́os, porque 0V ∈ ker(A) y 0W ∈ Rg(A).
2. Sean V y W dos espacios vectoriales sobre el mismo campo F, y sea A :
V → W una transformación lineal. Entonces la ecuación lineal

A(x) = b,

donde el vector b ∈ W es dado y el vector x ∈ V es desconocido, satisface


las siguientes propiedades:

existe (por lo menos) una solución ⇔ b ∈ rg(A), (44)


la solución (si existe) es única ⇔ ker(A) = {0V }. (45)

Además, si x ∈ V es una solución de A(x) = b y si y ∈ ker(A), entonces


x + y también es solución: A(x + y) = A(x) + A(y) = b + 0W = b.
Ejemplos
1. Sea A : V → W la transformación cero, es decir, A(v) := 0W para todo
v ∈ V . Entonces ker(A) = V y Rg(A) = {0W }.
2. Sea I : V → V la transformación identidad, es decir A(v) = v para todo
v ∈ V . Entonces ker(I) = {0} y Rg(I) = V .
3. Sea A : R3 → R2 la transformación lineal del ejemplo 1 en la página 42.
Entonces A(v) = 0 si y sólo si

v1 + v2 = 0,
v2 − v3 = 0,

lo que es equivalente a v1 = −v2 y v3 = v2 . Por lo tanto, si ponemos


v2 = t, t ∈ R, entonces

ker(A) = {(−t, t, t) : t ∈ R} = h(−1, 1, 1)i.

Además, si w ∈ R2 es un vector arbitrario, entonces el vector


 
w1  
w1
v :=  0 , w=
w2
−w2

satisface A(v) = w. Por lo tanto, concluimos que Rg(A) = R2 .

Ejercicio 12. Sea A : R3 → R3 definida por


     
x1 x1 + 7x2 + 4x3 x1
A  x2  =  x1 + x2 + 5x3  ,  x 2  ∈ R3 .
x3 x1 − 5x2 + 6x3 x3

45
(a) Muestre que A define una transformación lineal.
(b) Encuentre los espacios ker(A) y Rg(A) y sus dimensiones.
 
x1
(c) Encuentre el espacio de todas las soluciones  x2  del sistema ho-
x3
mogéneo    
x1 0
A  x2  =  0  .
x3 0


b1
(d) Encuentre el espacio de todos los vectores b =  b2  para los cuales el
b3
sistema no homogéneo
   
x1 b1
A  x 2  =  b2 
x3 b3

tiene soluciones.
 
x1
(e) Encuentre todas las soluciones  x2  del sistema no homogéneo
x3
   
x1 1
A  x2  =  1  .
x3 1

Definición 24 Sean V, W, X tres espacios vectoriales sobre el mismo campo F,


y sean A : V → W y B : W → X transformaciones lineales. Entonces definimos
la composición de B con A como el mapeo B ◦ A : V → X definido por

(B ◦ A)(v) := B(A(v)), v ∈ V.

Observación: La linealidad de A y B implican que B ◦ A : V → X también


es una transformación lineal.

Definición 25 Sea F un campo, y sean V y W espacios vectoriales sobre F.


Una transformación lineal A : V → W se llama invertible si existe una trans-
formación lineal B : W → V tal que

A ◦ B = IW , B ◦ A = IV . (46)

En este caso, B se llama la inversa de A y se denota por A−1 .

46
Observaciones
1. Si A : V → W es invertible, la inversa es única. Efectivamente, si B :
W → V y C : W → V son dos transformaciones lineales que satisfacen

A ◦ B = IW , B ◦ A = IV ,

y
A ◦ C = IW , C ◦ A = IV ,
entonces vale para todo w ∈ W ,

C(w) = C(A ◦ B(w)) = (C ◦ A)(B(w)) = B(w),

y concluimos que C = B.
2. Sean V, W, X tres espacios vectoriales sobre el mismo campo F, y sean
A : V → W y B : W → X invertibles. Entonces la transformación lineal
B ◦ A : V → X es invertible y vale

(B ◦ A)−1 = A−1 ◦ B −1 : X → V. (47)

Demostración. La transformación lineal A−1 ◦ B −1 : X → V satisface


(B◦A)◦(A−1 ◦B −1 ) = B◦B −1 = IX y (A−1 ◦B −1 )◦(B◦A) = A−1 ◦A = IV .

Teorema 8 (Invertibilidad de transformaciones lineales) Sea F un cam-


po, y sean V y W espacios vectoriales sobre F. Una transformación lineal
A : V → W es invertible si y sólo si valen las siguientes dos condiciones:
(i) ker(A) = {0V } (injectivo)
(ii) Rg(A) = W (surjectivo)

Demostración. Si A es invertible existe una transformación lineal A−1 : W →


V tal que
A ◦ A−1 = IW , A−1 ◦ A = IV .
Entonces si v ∈ ker(A) concluimos enseguida que

v = A−1 (Av)) = A−1 (0W ) = 0V ,

de tal manera que ker(A) = {0V }. Además, si w ∈ W es un vector arbitrario en


W , entonces v := A−1 w satisface

A(v) = A ◦ A−1 (w) = w,

lo que implica que Rg(A) = W .


Por otro lado, si la transformación lineal A : V → W satisface las condiciones
(i) y (ii), sabemos que existe para cada w ∈ W un único vector v ∈ V tal que

47
A(v) = w, ver la segunda observación en la página 45. Esto define un mapeo
B : W → V que asigna a cada w ∈ W este vector único v ∈ V tal que A(v) = w.
Por definición este mapeo satisface
A(B(w)) = A(v) = w
para todo w ∈ W , es decir, A ◦ B = IW . Además, vale para todo v ∈ V ,
B(A(v)) = B(w) = v, w := A(v)
dado que v es el úncio vector que satisface A(v) = w. Entonces también vale
B ◦ A = IV . Para concluir la demostración, falta verificar que B es lineal. Para
esto, tomamos w1 , w2 ∈ W y λ ∈ F. Entonces el vector v := B(w1 + λw2 )
satisface
A(v) = w1 + λw2 = A(B(w1 )) + λA(B(w2 )) = A(B(w1 ) + λB(w2 )),
donde usamos la linealidad de A en el último paso. Aplicando el operador B de
ambos lados de la ecuación concluimos que
v = B(w1 ) + λB(w2 ),
lo que demuestra que B es lineal.

Ahora viene un teorema importante:


Teorema 9 Sea F un campo y sean V y W espacios vectoriales sobre F. Su-
pongamos que n = dim V < ∞. Entonces vale para toda transformación lineal
A : V → W que
dim ker(A) + dim Rg(A) = n. (48)
Demostración. Dado que dim V = n < ∞ y que ker(A) ⊂ V es un subespacio
de V , tenemos que k := dim ker(A) ≤ n. Sea {v 1 , v 2 , . . . , v k } una base de ker(A),
y sea {u1 , u2 , . . . , un } una base de V . Usando el método de la demostración de
la Proposición 4 podemos reemplazar k de los vectores uj ’s por los vectores v j ’s,
y de esta manera obtenemos una nueva base
B := {v 1 , v 2 , . . . , v k , v k+1 , v k+2 , . . . , v n }
de V , donde los primeros k vectores forman una base de ker(A). Sean wj :=
A(v j ), j = 1, 2, . . . , n, las imágenes de los vectores v j ’s. Por construcción, w1 =
w2 = . . . = wk = 0. Ahora afirmamos que el conjunto formado por los n − k
vectores restantes,
B 0 := {wk+1 , wk+1 , . . . , wn },
es una base de Rg(A), lo que implica que dim Rg(A) = n − k = n − dim ker A.
Para demostrar que B 0 es una base de Rg(A) notamos primero que los vec-
tores de B 0 generan Rg(A). Para ver esto, tomamos un vector w ∈ Rg(A) arbi-
trario. Entonces existe v ∈ V tal que w = A(v). Podemos expander el vector v
en la base B de V :
v = c1 v 1 + . . . ck v k + ck+1 v k+1 + . . . + cn v n .

48
Usando la linealidad de A y la definición de los vectores wj ’s obtenemos que
w = A(v) = ck+1 wk+1 + . . . + cn wn . Entonces los vectores de B 0 generan Rg(A).
Finalmente, demostramos que los vectores de B 0 son linealmente indepen-
dientes. Para esto, sean ck+1 , ck+2 , . . . , cn ∈ F números tales que
0 = ck+1 wk+1 + ck+2 wk+2 + . . . + cn wn
= A(ck+1 v k+1 + ck+2 v k+2 + . . . + cn v n ).
Esto implica que el vector
v := ck+1 v k+1 + ck+2 v k+2 + . . . + cn v n
es elemento del núcleo de A. Por otro lado, si v ∈ ker(A) entonces también debe
existir una expansión de la forma
v = c1 v 1 + c2 v 2 + . . . + ck v k .
Pero como los vectores v 1 , . . . , v k , v k+1 , . . . , v n son linealmente independientes,
concluimos que todos los cj ’s deben ser cero, lo que implica en particular que
los vectores de B 0 deben ser linealmente independientes.

Ejemplo: Consideramos la transformación lineal A : R3 → R2 del ejemplo


3. en la página 3. Habı́amos visto que el núcleo de A es el espacio generado
por el vector (−1, 1, 1), mientras que Rg(A) = R2 . Entonces dim ker(A) = 1 y
dim Rg(A) = 2, y efectivamente vale
dim ker(A) + dim Rg(A) = 1 + 2 = 3 = dim R3 .
Si A : V → W es una transformación lineal, y las dimensiones de V y W son
finitas e iguales, el Teorema 9 implica la siguiente simplificación del Teorema 8:
Teorema 10 Sea F un campo, y sean V y W espacios vectoriales sobre F con
dim V = dim W = n < ∞. Entonces una transformación lineal A : V → W es
invertible si y sólo si ker(A) = {0V }.
Demostración. Si A es invertible, entonces ker(A) = {0V } como consecuencia
del Teorema 8. Por otro lado, si ker(A) = {0V }, entonces el Teorema 9 implica
que
dim Rg(A) = n − dim ker(A) = n,
y entonces Rg(A) = W , dado que Rg(A) ⊂ W es un subespacio de W y que
dim W = n. Ahora el Teorema 8 implica que A es invertible.

Observación: Sea V un espacio vectorial de dimensión finita, y sea A : V → V


una transformación lineal injectiva (ker(A) = {0}). Entonces el Teorema 10
implica que la ecuación
A(x) = b, b ∈ V dado,
posee una única solución x ∈ V , y esta solución es dada por x = A−1 (b).

Ejemplos

49
1. Sea V = W = R2 . Definimos la transformación lineal A : R2 → R2 por
   
v1 + v2 v1
A(v) := , v= ∈ R2 .
v1 − 2v2 v2
A es una transformación lineal y
     
v1 + v2 = 0 v1 0
A(v) = 0 ⇔ ⇔ = .
v1 − 2v2 = 0 v2 0
Entonces ker(A) = {0} y A es invertible. Para calcular la inversa de A
definimos    
w1 v1 + v2
:= A(v) =
w2 v1 − 2v2
y aplicamos las siguientes operaciones (eliminación de Gauss):
w 1 = v1 + v2
w2 = v1 − 2v2 (II) − (I)
w1 = v1 + v2 (I) + 13 (II)
w2 − w1 = −3v2 − 13 (II)
2
3 w1 + 13 w2 = v1
1
3 w1 − 13 w2 = v2
Entonces concluimos que
   
v1 1 2w1 + w2
= A−1 (w) = .
v2 3 w1 − w2
2. Sea
RN := {v = (v1 , v2 , v3 , . . .) : v1 , v2 , v3 , . . . R}
el espacio de sucesiones reales con la suma y multiplicación por un escalar
λ ∈ R definidos por
v+w := (v1 + w1 , v2 + w2 , v3 + w3 , . . .),
λ·v := (λv1 , λv2 , λv3 , . . .)
para v, w ∈ R y el vector cero 0 := (0, 0, 0, . . .). RN es un espacio vectorial
N

real de dimensión infinita porque los vectores ej , j = 1, 2, . . ., definidos por


ej := (0, 0, . . . , 0, 1, 0, 0, . . .) (el 1 en la j’esima posición),
son linealmente independientes.
Ahora definimos el mapeo A : RN → RN por la traslación
A(v) := (0, v1 , v2 , v3 , . . .), v = (v1 , v2 , v3 , . . .) ∈ RN .
A es lineal y la ecuación A(v) = 0 implica que 0 = v1 = v2 = v3 = . . . Por
lo tanto, ker(A) = {0} y A es injectivo. Sin embargo, A no es invertible,
porque el vector
(1, 0, 0, . . .) ∈
/ Rg(A).
Este ejemplo muestra que el Teorema 10 no es válido en general
si dim V = dim W = ∞.

50
1.6.2. Matrices de transformación

1.7. Determinantes
1.8. Autovalores y autovectores
1.9. Diagonalización de matrices
1.10. Matrices Hermitianas y matrices unitarias

51
2. Cálculo
En este capı́tulo estudiamos primero algunas propiedades de funciones f :
Rn → Rm (no necesariamente lineales) del espacio vectorial Rn al espacio vecto-
rial Rm . En particular, analizaremos la diferenciabilidad de funciones f : Rn →
Rm y sus aproximaciones por polinomios (el teorema de Taylor). Después, ana-
lizaremos la diferenciabilidad de campos vectoriales y de formas diferenciales
(análisis vectorial).
De ahora en adelante, consideramos el espacio vectorial real Rn con el pro-
ducto escalar canónico dado por
n
X
(x, y) := x · y = xj yj , x, y ∈ Rn , (49)
j=1

y la norma inducida
 1/2
p n
X
kxk := (x, x) =  x2j  , x ∈ Rn . (50)
j=1

La norma es importante en todo lo que sigue porque nos permite introducir una
noción de distancia entre dos puntos x y y en Rn . Esta distancia se define como

d(x, y) := kx − yk, x, y ∈ Rn . (51)


n
Por ejemplo, la bola abierta centrada en x ∈ R con radio δ > 0 está definida
por
Bδ (x) := {y ∈ Rn : d(x, y) < δ}.

2.1. Sucesiones convergentes


Definición 26 Una sucesión en Rn es una función N → R que asigna a todo
número natural k ∈ N un punto xk ∈ Rn . Escribimos {xk }k∈N o simplemente
xk para denotar una sucesión en Rn .
Definición 27 Una sucesión xk en Rn se llama convergente a x ∈ Rn si para
todo ε > 0 existe una constante K = K(ε) ∈ N (que depende de ε) tal que
kxk − xk < ε para todo k ≥ K(ε). (52)
En este caso, x se llama el lı́mite de xk , y escribimos
lı́m xk = x o simplemente xk → x.
k→∞

Observaciones
1. Notamos que xk converge a x si y sólo si la sucessión real {kxk − xk}k∈N
converge a cero, es decir, si y sólo si
lı́m kxk − xk = 0. (53)
k→∞

52
2. El lı́mite x de una sucesión convergente xk en Rn es único: Sea y ∈ Rn
otro lı́mite, entonces usando la desigualdad del triángulo obtenemos que
kx − yk = kx − xk + xk − yk ≤ kx − xk k + kxk − yk → 0,
lo que implica x = y.
Definición 28 Si una sucesión xk de Rn no es convergente, se llama diver-
gente.
Ejemplos
1. Sean xk := ( k1 , 1 − k1 ), k ∈ N, y x := (0, 1). Dado ε > 0 definimos K(ε)

como un número natural mas grande que ε2 . Entonces,

1 1 2
kxk − xk = k( , − )k = <ε
k k k
para todos k ≥ K(ε), y por lo tanto,
lı́m xk = x.
k→∞

2. Definimos xk := ( k1 , k), k ∈ N. Sea x ∈ R2 arbitrario. Entonces la distancia


entre xk y x,
r
1
kxk − xk ≥ kxk k − kxk = + k 2 − kxk > k − kxk
k2
puede ser arbitrariamente grande. Por lo tanto, xk no puede converger a
x y xk es divergente.
Un resultado útil es el siguiente
Teorema 11 Sea xk = (x1k , x2k , . . . , xnk ) una sucesión en Rn . Entonces xk
converge al punto x = (x1 , x2 , . . . , xn ) ∈ Rn si y sólo si las n sucesiones co-
rrespondientes en R, {x1k }k∈N , . . . , {xnk }k∈N convergen a x1 , . . . , xn , respecti-
vamente; es decir, si y sólo si
lı́m xjk = xj , para j = 1, 2, . . . , n.
k→∞

Demostración.
(i) Si xk → x, entonces existe para cada ε > 0 un K(ε) ∈ N tal que
n
X
kxk − xk2 = (xjk − xj )2 < ε2
j=1

para todos k ≥ K(ε). En particular, esto implica que


|xjk − xj | < ε
para todos j = 1, 2, . . . , n y todos k ≥ K(ε). Entonces
lı́m xjk = xj , para j = 1, 2, . . . , n. (54)
k→∞

53
(ii) Por otro lado, si vale (54), existen para cada ε > 0 números naturales
K1 (ε), K2 (ε), . . . , Kn (ε) tales que
ε
|xjk − xj | < √
n

para todos k ≥ Kj (ε) y j = 1, 2, . . . , n. Definimos K(ε) = máx{K1 (ε), K2 (ε), . . . , Kn (ε)}.


Entonces  1/2
X n
kxk − xk =  |xjk − xj |2  <ε
j=1

para todos k ≥ K(ε) lo que implica que xk → x.

Ejemplos
1. Sea xk := ( √1k , e−k , 1 − k12 ), k ∈ N. Puesto que √1
k
→ 0, e−k → 0 y
1 − k12 → 1 para k → ∞, obtenemos que

lı́m xk = (0, 0, 1).


k→∞

2. Sea xk := ( k1 , (−1)k , cos(k)


k ), k ∈ N. Entonces xk diverge, porque la suce-
sión real (−1)k diverge.

Ejercicio 13. Para uk dada mediante las siguentes fórmulas, establezca la


convergencia o la divergencia de la sucesión (uk ):
 k

(a) uk = k1 , (−1)
k+1
k
,
 
2k k2
(b) uk = 3k2 +1 , k+1 −k ,
!
k
2−k , sen(k) 1
P
(c) uk = k , j2 .
j=1

2.2. Funciones f : Rn → Rm continuas


Definición 29 Sea f : Rn → Rm una función. Se dice que f es continua en
un punto x0 ∈ Rn si para todo ε > 0 existe un δ = δ(ε, x0 ) > 0 (que depende de
ε y, en general, también de x0 ) tal que

kf (x) − f (x0 )k < ε para todos x ∈ Bδ (x0 ).

f se llama continua, si f es continua en todos los puntos x0 ∈ Rn .

54
Teorema 12 (prueba con sucesiones) Sea f : Rn → Rm una función. En-
tonces f es continua en el punto x si y sólo si
lı́m f (xk ) = f (x)
k→∞

para todas las sucesiones xk que convergen a x. En otras palabras, f : Rn → Rm


es continua en x ∈ Rn si y sólo si
lı́m xk = x implica lı́m f (xk ) = f (x).
k→∞ k→∞

Demostración.
(i) Sea f continua en x y sea xk una sucesión en Rn que converge a x. Quere-
mos demostrar que f (xk ) → f (x). Entonces sea ε > 0. Por la continuidad
de f en el punto x existe un δ = δ(ε, x) > 0 tal que
kf (y) − f (x)k < ε
n
para todos y ∈ R con ky − xk < δ. Por la convergencia de xk a x existe
un K = K(δ) = K(ε, x) tal que
kxk − xk < δ
para todos k ≥ K. Entonces,
kf (xk ) − f (x)k < ε
para todos k ≥ K lo que implica que f (xk ) converge a f (x).
(ii) Por otro lado, supongamos que f no es continua en x. Entonces existe un
ε∗ > 0 tal que para todos δ > 0 existe un xδ ∈ Rn con
kxδ − xk < δ y kf (xδ ) − f (x)k ≥ ε∗ .
En particular, para δ = k1 , k ∈ N, existe xk ∈ Rn con
1
kxk − xk < y kf (xk ) − f (x)k ≥ ε∗ .
k
De esta manera, construimos una sucesión xk que converge a x pero que
tiene la propiedad que f (xk ) no converge a f (x).

Ejemplos
1. Sea f : R → R la función

0, x < 2,
f (x) :=
1, x ≥ 2.
Puesto que f es constante sobre los intervalos (−∞, 2) y (2, ∞), f es
continua en todos los puntos x0 6= 2. Pero f no es continua en el punto
x0 = 2, porque si definimos la sucesión xk = 2− k1 , k ∈ N, entonces xk → 2
pero f (xk ) → 0 6= 1 = f (2).

55
2. Sea f : R2 → R la función
(
x2 y
x2 +y 2 , (x, y) 6= (0, 0),
f (x, y) :=
0, (x, y) = (0, 0).

Puesto que para (x, y) 6= (0, 0),


|x|2 |y| (x2 + y 2 )|y|
|f (x, y)| = 2 2
≤ = |y|,
x +y x2 + y 2
tenemos que |f (xk , yk )| → 0 para todas las sucesiones (xk , yk ) → (0, 0).
Por esta razón, f es continua en el punto (0, 0). (f también es continua
en los otros puntos de R2 . ¿porque ?)
3. Por otro lado, la función f : R2 → R definida por
 xy
f (x, y) := x2 +y 2 , (x, y) 6= (0, 0),
0, (x, y) = (0, 0),
no es continua en el punto (0, 0) porque la sucesión
 
1 1
(xk , yk ) = , , k = 1, 2, 3, . . .
k k
satisface (xk , yk ) → (0, 0) y
1
lı́m f (xk , yk ) = 6= f (0, 0).
k→∞ 2
4. La norma, k.k : Rn → R que asigna a cada vector x ∈ Rn su magni-
tud, kxk, es una función continua. Para ver esto, mostramos primero la
desigualdad
kxk − kyk ≤ kx − yk. (55)
para todos x, y ∈ Rn : Sean x, y ∈ Rn . Usando la desigualdad del triángulo,
obtenemos que
kxk = ky + x − yk ≤ kyk + kx − yk,
kyk = kx + y − xk ≤ kxk + kx − yk,
lo que implica (55). Sea xk una sucesión en Rn que converge a x ∈ Rn .
Entonces la desigualdad (55) implica que
lı́m |kxk k − kxk| = 0,
k→∞

es decir, kxk k → kxk. Entonces, k.k : Rn → R es continua.


5. No es difı́cil verificar que la suma de dos funciones f1 , f2 : Rn → Rm
continuas es una función continua. De la misma manera, el producto de
dos funciones g1 , g2 : Rn → R continuas es una función continua. Además,
si h : Rn → R es una función continua y si h no posee ceros, la función
1 n 1 1 n
h : R → R definida por h (x) = h(x) , x ∈ R , es continua.

56
6. Sea A : Rn → Rm una función lineal, es decir

A(x + λy) = A(x) + λA(y)

para todos x, y ∈ Rn y todos λ ∈ R. Sean B = {e1 , e2 , . . . , en } y B 0 =


{e01 , e02 , . . . , e0m } las bases canónicas de Rn y Rm , respectivamente. Pode-
mos desarrollar
m
X
A(ej ) = aij e0i , j = 1, 2, . . . , n,
i=1

donde aij son las componentes de la matriz de transformación correspon-


diente a A con respecto a las bases B y B 0 . Sea
n
X
x= x j e j ∈ Rn .
j=1

Entonces,  
n
X m
X Xn
A(x) = xj A(ej ) =  aij xj  e0i .
j=1 i=1 j=1

En otras palabras, A(x)i = ai ·x, donde ai = (ai1 , ai2 , . . . , ain ) es el i-ésimo


renglón de la matriz (aij ). Usando la desigualdad de Cauchy-Schwarz,
obtenemos que
n
X
2
|A(x)i | = |ai · x| ≤ kai k2 kxk2 = |aij |2 kxk2 ,
j=1

lo que implica que


m
X m X
X n
2
kA(x)k2 = |A(x)i | ≤ |aij |2 kxk2 .
i=1 i=1 j=1

Entonces, si definimos la constante


v
um X n
uX
C=t |aij |2 ,
i=1 j=1

tenemos la desigualdad
kA(x)k ≤ Ckxk (56)
para todos x ∈ Rn . Usando la linealidad de A, (56) implica que

kA(x) − A(y)k ≤ Ckx − yk (57)

para todos x, y ∈ Rn . Como en el ejemplo 4, concluimos que A es continua


en todos los puntos de Rn . Conclusión: Transformaciones lineales A :
Rn → Rm son automaticamente continuas.

57
Ejercicio 14.
(a) Demostrar que la función f : R3 → R definida por
(
x2 y 2 z
f (x, y, z) := x4 +y 4 +z 4 , (x, y, z) 6= (0, 0, 0),
0, (x, y, z) = (0, 0, 0)

es continua en todos los puntos (x, y, z) ∈ R3 .

(b) Demostrar que la función g : R3 → R definida por


(
x2 yz
g(x, y, z) := x4 +y 4 +z 4 , (x, y, z) 6= (0, 0, 0),
0, (x, y, z) = (0, 0, 0)

no es continua en el punto (x, y, z) = (0, 0, 0).

En muchos casos, conviene definir f sobre un subconjunto U de Rn y no sobre


todo Rn . Por ejemplo, la función f (x) = 1/x está definida sobre el intervalo
U = (−∞, 0) ∪ (0, ∞) pero no sobre todo R. Pedimos que U sea abierto, es
decir, cada punto x de U posee una vecindad V = Bδ (x) = {y ∈ Rn : ky − xk}
con la propiedad que x ∈ V ⊂ U . La existencia de esta vecindad se require para
tomar lı́mites xk → x donde xk es una sucesión en U .

Definición 30 Sea U ⊂ Rn un subconjunto de Rn . U se llama


(i) abierto si para cada punto x ∈ U existe un δ > 0 tal que Bδ (x) ⊂ U .
(ii) cerrado si su complemento, Rn \ U , es abierto.

Ejemplos
1. Sean a, b ∈ R, a < b y (a, b) := {x ∈ R : a < x < b}. (a, b) es abierto:
Sea x ∈ (a, b). Entonces, eligiendo 0 < δ < mı́n{b − x, x − a}, tenemos que
Bδ (x) = (x − δ, x + δ) ⊂ (a, b).
2. Los conjuntos (−∞, a) = {x ∈ R : x < a} y (b, ∞) := {x ∈ R : x > b},
también son abiertos.
3. La bola abierta centrada en x con radio δ > 0,

Bδ (x) = {y ∈ Rn : kx − yk < δ},

es abierta.
4. La bola cerrada centrada en x con radio δ > 0,

Bδ (x) = {y ∈ Rn : kx − yk ≤ δ},

es cerrada, porque su complemento es abierto.

58
5. La unión U ∪ V de dos subconjuntos abiertos U y V de Rn es abierta.
6. Sean a < b y [a, b] := {x ∈ R : a ≤ x ≤ b}. [a, b] es cerrado, porque el
complemento R \ [a, b] = (−∞, a) ∪ (b, ∞) es la unión de dos subconjuntos
abiertos.
7. Sean a, b ∈ R, a < b. El subconjunto [a, b) = {x ∈ R : a ≤ x < b} no es
abierto ni cerrado.
8. Sea U1 , U2 , U3 , . . . una familia de subconjuntos abiertos de Rn . La unión
[
Uj
j∈N

de estos subconjuntos es abierta.


9. Sea U1 , U2 , . . . , Um una familia finita de subconjuntos abiertos de Rn . En-
tonces, la intersección
\m
Uj
j=1

de estos subconjuntos es abierta.


10. Por otro lado, la intersección \
Uj
j∈N

de una familia infinita U1 , U2 , . . . de subconjuntos abiertos de Rn no es


necesariamente abierta (¿porque?).
11. El subconjunto vacı́o, ∅, es abierto.
12. Rn también es abierto. Entonces, ∅ y Rn son conjuntos que son abiertos
y cerrados al mismo tiempo.
Otra manera (equivalente a la previa) de definir la continuidad de una fun-
ción f es la siguiente:
Definición 31 Sea f : U ⊂ Rn → Rm una función definida sobre un subconjun-
to abierto, U ⊂ Rn , de Rn . f se llama continua si para todos los subconjuntos
abiertos V ⊂ Rm , el subconjunto

f −1 (V ) := {x ∈ U : f (x) ∈ V }

de Rn es abierto.
Observación: Esta definición es equivalente a la definición 29. Para ver esto,
vamos a asumir primero que f : U ⊂ Rn → Rm es continua en el sentido de la
definición 31 y mostrar que f es continua en el sentido de la definición 29 en
todos los puntos x0 ∈ U : Sean x0 ∈ U , y 0 := f (x0 ), ε > 0 y

V := Bε (y 0 ) = {y ∈ Rm : ky − y 0 k < ε}.

59
Debido a la definición 31, el subconjunto

f −1 (V ) = {x ∈ U : kf (x) − f (x0 )k < ε}

de U es abierto y x0 ∈ f −1 (V ). Entonces existe δ > 0 tal que Bδ (x0 ) ⊂ f −1 (V ).


Esto quiere decir que
kf (x) − f (x0 )k < ε
para todos x ∈ Bδ (x0 ). Entonces, f es continua en el punto x0 .
Por otro lado, sea f continua en el sentido de la definición 29 en todos los
puntos x0 ∈ U . Sea V ⊂ Rm un subconjunto abierto. Tenemos que mostrar que
el subconjunto f −1 (V ) es abierto: Sea x0 ∈ f −1 (V ), es decir, x0 ∈ U satisface
f (x0 ) ∈ V . Puesto que V es abierto, existe ε > 0 tal que Bε (f (x0 )) ⊂ V . Como
f es continua en el punto x0 existe δ > 0 tal que

kf (x) − f (x0 )k < ε

para todos x ∈ U con kx − x0 k < δ. Entonces, eligiendo δ > 0 suficientemente


pequeño tal que Bδ (x0 ) ⊂ U (esto es posible porque U es abierto), obtenemos
que Bδ (x0 ) ⊂ f −1 (V ). Entonces, f −1 (V ) es abierto y f es continua en el sentido
de la definición 31.

60
2.3. Funciones f : Rn → Rm diferenciables
Primero, nos acordamos de la definición de diferenciabilidad para funciones
que dependen de una variable:
Definición 32 Una función f : R → R se llama diferenciable en x ∈ R si
existe el lı́mite
f (x + h) − f (x)
f 0 (x) := lı́m . (58)
h→0,h6=0 h
Observaciones

1. Geometricamente, f 0 (x) representa la pendiente da la tangente a la gráfica


de f en el punto x: La tangente está determinada por la transformación
lineal A(x) : R → R definida por

A(x)h := f 0 (x)h, h ∈ R.

Esta transformación da una aproximación para la diferencia entre la fun-


ción f evaluada en el punto x + h y la función f evaluada en el punto x.
Más precisamente, existe una función error, ϕ : R → R tal que

ϕ(h)
lı́m =0
h→0,h6=0 h
y
f (x + h) = f (x) + A(x)h + ϕ(h), (59)
para todos h ∈ R. Para ver esto, definimos la función ϕ : R → R por
ϕ(h) := f (x + h) − f (x) − f 0 (x)h, h ∈ R. Entonces, para h 6= 0,

ϕ(h) f (x + h) − f (x)
= − f 0 (x) → 0
h h
para h → 0 puesto que f es diferenciable en x.
2. En particular, si f es diferenciable en x ∈ R, f es automaticamente con-
tinua en x, porque (59) implica que
 
ϕ(h)
lı́m [f (x + h) − f (x)] = lı́m h A(x) + = 0,
h→0 h→0 h

y entonces f (x + h) → f (x) para h → 0.

Tomando en cuenta estas observaciones existen varias posibilidades para de-


finir la diferenciabilidad de funciones f : Rn → Rm que dependen de n variables.
Una posibilidad está basada en la generalización de (58) y lleva a la definición de
las derivadas parciales. Otra posibilidad está basada en la aproximación lineal
(59). Como vamos a ver, las dos posibilidades no llevan a definiciones equiva-
lentes para funciones que dependen de mas que una variable (n ≥ 2); en este
caso, la segunda posibilidad lleva a la definición adequada.

61
Definición 33 Sea f : U ⊂ Rn → R una función definida sobre un subconjunto
abierto U de Rn , y sean

e1 = (1, 0, 0, . . . , 0), e2 = (0, 1, 0, . . . , 0), ... en = (0, 0, 0, . . . , 1),

los vectores de la base canónica de Rn . f se llama parcialmente diferenciable


en x ∈ U con respecto a la coordenada i si existe el limite
f (x + hei ) − f (x)
Di f (x) := lı́m . (60)
h→0,h6=0 h
Si f es parcialmente diferenciable en x con respecto a todas las coordenadas
i = 1, 2, . . . , n, f se llama parcialmente diferenciable en x. En este caso, el
gradiente de f en x está definido por el vector

grad f (x) := (D1 f (x), D2 f (x), . . . , Dn f (x)). (61)

Finalmente, f se llama parcialmente diferenciable si f es parcialmente di-


ferenciable en todos los puntos x de U .

Observaciones
1. Otras notaciones para la derivada parcial son:

Dj f (x) ≡ f (x) ≡ ∂j f (x) ≡ f,j (x)
∂xj

2. Otras notaciones para el gradiente son:

grad f (x) ≡ ∇f (x),

donde
∇ ≡ (∂1 , ∂2 , . . . , ∂n )
se llama el operador nabla.

Ejemplos
p
1. Sea r : R2 → R la norma, r(x) := kxk = x21 + x22 . Entonces para
(x1 , x2 ) 6= (0, 0) tenemos que
x1 x2
D1 r(x) = p , D2 r(x) = p 2 ,
x21 + x22 x1 + x22

y r es parcialmente diferenciable en x = (x1 , x2 ) 6= (0, 0). Además,

(x1 , x2 ) x
grad r(x) = p 2 = ,
x1 + x22 kxk

para todos x 6= (0, 0).

62
2. Sea f : R2 → R la función
 x1 x2
kxk2 , x = (x1 , x2 ) 6= (0, 0),
f (x) :=
0, x = (x1 , x2 ) = (0, 0).

Entonces, para x 6= (0, 0), tenemos que

x2 x2 x2 (x2 − x22 )x2


D1 f (x) = 2
−2 1 4 =− 1 ,
kxk kxk kxk4
x1 x1 x22 (x2 − x22 )x1
D2 f (x) = 2
−2 4
= 1 ,
kxk kxk kxk4
y

f (h, 0) − f (0, 0)
D1 f (0, 0) = lı́m = 0,
h→0,h6=0 h
f (0, h) − f (0, 0)
D2 f (0, 0) = lı́m = 0.
h→0,h6=0 h
Entonces, f es parcialmente diferenciable. A pesar de esto, f no es conti-
nua en el punto (0, 0) como vimos en el ejemplo 3 de la sección 2.2.
Notamos también que la función D1 f : R2 → R no es continua en el punto
(0, 0), porque si definimos la sucesión xk := (0, k1 ), k ∈ N, entonces xk → 0
pero D1 f (xk ) = k diverge.
El último ejemplo muestra que una función parcialmente diferenciable no es
necesariamente continua. Por otro lado, esperamos que una buena definición de
diferenciabilidad implica la continuidad. Por esta razón, definimos
Definición 34 Una función f : U ⊂ Rn → Rm definida sobre un subconjunto
abierto U de Rn se llama diferenciable en x ∈ U si existe una transformación
lineal A(x) : Rn → Rm y una función error ϕx : Bδ (0) ⊂ Rn → Rm definida
sobre una vecindad de 0 tal que

ϕ(h)
lı́m =0
h→0,h6=0 khk

y
f (x + h) = f (x) + A(x)(h) + ϕ(h) (62)
para todos h ∈ Bδ (0).
f se llama diferenciable si f es diferenciable en todos los puntos x ∈ U .
Observaciones

1. Si f es diferenciable en el punto x ∈ U , la transformación lineal A(x) en


(62) es única como veremos en el próximo teorema. En este caso, Df (x) ≡
A(x) se llama la diferencial de f en x o la derivada de Fréchet de
f en x.

63
2. Geometricamente, la transformación lineal A(x) describe el espacio plano
tangente a la superficie
{(x, f (x) : x ∈ U } ⊂ Rn × Rm
en el punto (x, f (x)).
Ejemplo: Sea C = (cij ) una matriz real simétrica n × n, y sea f : Rn → R la
función definida por
n
X
f (x) := (x, Cx) = cij xi xj ,
i,j=1

x = (x1 , x2 , . . . , xn ) ∈ Rn . Entonces, para x, h ∈ Rn , tenemos que


f (x + h) − f (x) = 2(Cx, h) + (h, Ch)
= A(x)(h) + ϕ(h),
donde A(x)(h) := 2(Cx, h) y ϕ(h) := (h, Ch). Obviamente, A(x) : Rn → R es
lineal y usando la desigualdad de Cauchy-Schwarz, obtenemos que
ϕ(h) |(h, Ch)|
= ≤ kChk → 0

khk khk

para h → 0 puesto que la transformación lineal C es continua (ver el ejemplo 6


de la sección 2.2). Entonces f es diferenciable en todos los puntos x ∈ Rn y la
diferencial Df (x) : Rn → R de f es dada por
Df (x)(h) = 2(Cx, h), x, h ∈ Rn .
Teorema 13 Sea f : U ⊂ Rn → Rm diferenciable en x ∈ U , y sea A := Df (x)
la diferencial de f en x. Entonces,
(i) f es continua en el punto x.
(ii) Todas las componentes fi : U ⊂ Rn → R, i = 1, 2, . . . , m, de f son
parcialmente diferenciables en el punto x y
Dj fi (x) = aij , i = 1, 2, . . . , m, j = 1, 2, . . . , n,
donde aij son las componentes de la matriz de transformación correspon-
diente a A con respecto a las bases canónicas de Rn y Rm .
Observación: En particular, (ii) implica que la diferencial A está unicamen-
te determinada por f . La matriz (aij ) se llama la matriz de Jacobi de f en x.

Demostración del Teorema 13. Sabemos que existe una función ϕ : Bδ (0) ⊂
Rn → Rm tal que
ϕ(h)
lı́m =0 (63)
h→0,h6=0 khk
y
f (x + h) − f (x) = A(h) + ϕ(h) (64)
para todos h ∈ Bδ (0).

64
(i) (63) y (64) implican que

kf (x + h) − f (x)k = kA(h) + ϕ(h)k ≤ kA(h)k + kϕ(h)k → 0

para h → 0. Entonces f es continua en x.

(ii) La i-ésima componente de (64) es


n
X
fi (x + h) − fi (x) = aij hj + ϕi (h).
j=1

En particular, para h = hej , h 6= 0, obtenemos que

fi (x + hej ) − fi (x) ϕi (hej )


= aij + .
h h

ϕi (he ) kϕ(he )k
Puesto que h j ≤ khe jk → 0 para h → 0, existe el lı́mite
j

fi (x + hej ) − fi (x)
Dj fi (x) = lı́m = aij .
h→0,h6=0 h

El resultado (ii) del Teorema 13 dice que si una función f : U ⊂ Rn → R


es diferenciable en x ∈ U , f también es parcialmente diferenciable en x. Por
otro lado, una función f : U ⊂ Rn → R que es parcialmente diferenciable en un
punto x ∈ U no tiene porqué ser diferenciable en x: La función f del ejemplo
2 arriba, por ejemplo, es parcialmente diferenciable en todos los puntos de R2
pero no es continua en el punto (0, 0). Por el resultado (i) del Teorema 13 f
no puede ser diferenciable en este punto. Sin embargo, se puede mostrar que
f : U ⊂ Rn → R es diferenciable si f es parcialmente diferenciable y si todas las
derivadas parciales Dj f : U ⊂ Rn → R, j = 1, 2, . . . , n, son funciones continuas.
De manera más general, tenemos:
Teorema 14 Sea U ⊂ Rn un subconjunto abierto de Rn , y sea f : U → R una
función que es parcialmente diferenciable en todos los puntos de un subconjunto
V ⊂ U abierto de U . Si todas las derivadas parciales Dj f : V ⊂ Rn → R,
j = 1, 2, . . . , n, son continuas, entonces f es diferenciable en todos los puntos
de V , y para todos x ∈ V la diferencial de f en x está dada por

Df (x)(h) = (grad f (x), h), h ∈ Rn .

Demostración. Sea x ∈ V . Puesto que V es abierto, existe un δ > 0 tal que


Bδ (x) ⊂ V . Sea h ∈ Rn tal que 0 < khk < δ. Entonces los puntos
j
X
z (j) := x + hk ek , j = 0, 1, 2, . . . , n,
k=1

65
pertenecen a Bδ (x) ⊂ V . Además, z (0) = x y z (n) = x + h. Como f es parcial-
mente diferenciable en todos los puntos de Bδ (x) y usando el teorema del valor
medio3 , existen valores θj ∈ (0, 1), j = 1, 2, . . . , n, tales que

f (z (j) ) − f (z (j−1) ) = Dj f (y (j) )hj ,

donde y (j) = z (j−1) + θj hj ej , j = 1, 2, . . . , n. Entonces,


n h
X i
f (x + h) − f (x) = f (z (j) ) − f (z (j−1) )
j=1
n
X
= Dj f (y (j) )hj
j=1
Xn
= aj hj + ϕ(h), (65)
j=1

donde definimos aj := Dj f (x), j = 1, 2, . . . , n y


n h
X i
ϕ(h) := Dj f (y (j) ) − aj hj .
j=1

Usando la desigualdad de Cauchy-Schwarz y la continuidad de las funciones


Dj f , obtenemos que
 1/2
ϕ(h) X n h i2
≤ Dj f (y (j) ) − aj  →0

khk

j=1

para h → 0. Ahora (65) implica que f es diferenciable en x y que Df (x)(h) =


(a, h) donde a = (a1 , a2 , . . . , an ) = grad f (x).

Ejercicio 15.

(a) Muestre que la función h : R → R definida por

x sen x1 , x 6= 0,
 2 
h(x) :=
0, x = 0

es diferenciable y analice la continuidad de su derivada h0 en el punto


x = 0.
3 El teorema del valor medio dice lo siguiente: Sean a < b y f : [a, b] → R una función que

es diferenciable en todos los puntos x ∈ R con a < x < b. Entonces existe un valor y ∈ R con
a < y < b tal que
f (b) − f (a)
= f 0 (y).
b−a

66
(b) Calcule el gradiente de las siguientes funciones R2 → R y encuentre los
planos tangentes a las superficies en R3 representadas como gráficas de las
siguentes funciones de los puntos que se especifican:
f1 (x, y) := x2 + y 2 en (0, 0) y en (1, 2),
f2 (x, y) := xy en (0, 0) y en (1, 2),
1
f3 (x, y) := en (0, 0) y en (1, 1).
1 + x2 + y 2

(c) Sea f : R2 → R la función definida por


(
xy 2
f (x, y) := x2 +y 2 , (x, y) 6= (0, 0),
0, (x, y) = (0, 0).

Demostrar que existe la derivada direccional de f en (0, 0) con respecto a


cualquier vector v = (a, b) unitario y que
Dv f (0, 0) = ab2 .
Demostrar que f es continua pero no diferenciable en (0, 0).
(d) Calcule la matriz de Jacobi de la función F : R3 → R3 dada por
 
r sen ϑ cos ϕ
F (r, ϑ, ϕ) :=  r sen ϑ sen ϕ 
r cos ϑ

y muestre que F es diferenciable en todos los puntos (r, ϑ, ϕ) ∈ R3 . Calcule


el determinante det(DF (r, ϑ, ϕ)) y analice para que puntos DF (r, ϑ, ϕ) es
invertible.

Teorema 15 (regla de la cadena) Sean f : V ⊂ Rm → Rk y g : U ⊂ Rn →


Rm dos funciones definidas sobre subconjuntos abiertos V y U de Rm y Rn , res-
pectivamente. Sea g(U ) ⊂ V de tal manera que se pueda definir la composición,
f ◦ g : U ⊂ Rn → Rk , f ◦ g(x) := f (g(x)), x ∈ U.
Si g es diferenciable en el punto x ∈ U y f es diferenciable en el punto y := g(x),
entonces f ◦ g es diferenciable en el punto x, y
D(f ◦ g)(x) = Df (y) ◦ Dg(x).
Demostración. Ejercicio.

Ejemplo: Sea f : Rn → R diferenciable en x ∈ Rn , y sea v ∈ Rn , kvk = 1,


un vector unitario. La derivada direccional de f en x con respecto a la
dirección v está definida por

d
Dv f (x) := f (x + tv) .
dt t=0

67
La función g : R → Rn , g(t) := x + tv, t ∈ R, es diferenciable y Dg(t) = v.
Entonces, usando la regla de la cadena, obtenemos que

d
Dv f (x) = f ◦ g(t)
dt t=0
= Df (g(0)) ◦ Dg(0)
= Df (x) ◦ v.

Entonces, Dv f (x) = (grad f (x), v).

68
2.4. El teorema de Taylor
Sea f : U ⊂ Rn → R una función definida sobre un subconjunto abierto
U de Rn , y sea f diferenciable en un punto x ∈ U . Como vimos en la sección
anterior, esto significa que existe una transformación lineal

A(x) = Df (x) = (grad f (x), .) : Rn → R

y una función ϕx : Bδ (0) ⊂ Rn → R definida sobre una vecindad de 0 tal que

ϕ(h)
lı́m =0
h→0,h6=0 khk
y
f (x + h) = f (x) + A(x)(h) + ϕ(h) (66)
para todos h ∈ Bδ (0). En otras palabras, es posible aproximar la función f en
una vecindad del punto x por la constante f (x) más la transformación lineal
h 7→ A(x)(h) = (grad f (x), h). El error está dado por la función ϕx que cae a
cero más rápidamente que khk.
En esta sección vamos a ver que si f es suficientemente suave se pueden
obtener aproximaciones de f que son mejores que (66). Empezamos por:

Teorema 16 (teorema de Taylor en una dimensión) Sean k ∈ N y a < b.


Sea f : (a, b) → R una función definida sobre el intervalo (a, b) que es k veces
diferenciable con derivadas f (0) := f , f (1) := f 0 , f (2) := f 00 , . . . , f (k) continuas.
Sean x ∈ (a, b) y h ∈ R con x + h ∈ (a, b). Entonces existe un número real
θ = θ(x, h) con 0 < θ < 1 tal que
k−1
X f (j) (x) j f (k) (x + θh) k
f (x + h) = h + h
j=0
j! k!

f 00 (x) 2 f (k−1) (x) k−1 f (k) (x + θh) k


= f (x) + f 0 (x)h + h + ... + h + h .
2 (k − 1)! k!
Demostración. Para h = 0 la afirmación es evidente. Si h 6= 0 definimos
 
k−1 (j)
k! X f (x) j 
p := k f (x + h) − h .
h j=0
j!

Tenemos que mostrar que existe θ ∈ (0, 1) tal que

f (k) (x + θh) = p.

Para ver esto, suponemos primero que h > 0 y definimos la función H : [0, h] →
R,
k−1
X f (j) (x + y) p
H(y) := f (x + h) − (h − y)j − (h − y)k , 0≤y≤h
j=0
j! k!

69
que satisface H(0) = H(h) = 0. Además, H es diferenciable en los puntos
y ∈ (0, h) y
k−1
X f (j+1) (x + y) f (j) (x + y)

H 0 (y) = − (h − y)j − j(h − y)j−1
j=0
j! j!
p
+ k(h − y)k−1
k!
k−1
X f (j+1) (x + y) k−1
X f (j) (x + y)
= − (h − y)j + (h − y)j−1
j=0
j! j=0
(j − 1)!
p
+ (h − y)k−1
(k − 1)!
p − f (k) (x + y)
= (h − y)k−1 .
(k − 1)!

Por el teorema del valor medio existe z ∈ (0, h) tal que H 0 (z) = 0. Definiendo
θ := z/h ∈ (0, 1) esto quiere decir que

f (k) (x + θh) = p.

Si h < 0 la demostración es parecida al caso h > 0.

Observación: Si definimos el polinomio de Taylor Px,k del orden k de f en el


punto x por
k
X f (j) (x) j
Px,k (h) := h ,
j=0
j!

entonces el resultado del teorema 16 también se puede reformular de la siguiente


manera: Si f es k veces diferenciable en el punto x y si las derivadas f (0) := f ,
f (1) := f 0 , f (2) := f 00 , . . . , f (k) son continuas, entonces existe una función error
ϕx,k tal que
ϕx,k (h)
lı́m =0
h→0,h6=0 hk
y
f (x + h) = Px,k (h) + ϕx,k (h)
para todos los h ∈ R tales que x + h ∈ (a, b).
Demostración. Por el teorema 16 sabemos que para cada h ∈ R con x + h ∈
(a, b) existe θ ∈ (0, 1) tal que

f (k) (x + θh) k
f (x + h) = Px,k−1 (h) + h = Px,k (h) + ϕx,k (h),
k!
donde
f (k) (x + θh) − f (k) (x) k
ϕx,k (h) = h .
k!

70
Dado que f (k) es continua y que θ ∈ (0, 1) tenemos que f (k) (x+θh)−f (k) (x) → 0
para h → 0. Entonces, h−k ϕx,k (h) → 0 para h → 0.

Ejemplos
1. Sea f : R → R la función exponencial f (x) = ex , x ∈ R. Existen todas
las derivadas de f , y f (k) (x) = ex para k = 0, 1, 2, . . ., x ∈ R. Entonces,
existe para cada x, h ∈ R y cada k ∈ N un θk ∈ (0, 1) tal que
ex+θk h k
f (x + h) = Px,k−1 (h) + h ,
k!
donde
k
X ex
Px,k (h) = hj .
j=0
j!
¿Qué pasa en el lı́mite k → ∞?
Puesto que
ex+θk h |h|k
hk ≤ ex+|h| → 0, k → ∞,

k! k!

obtenemos que para cada x, h ∈ R,



X ex
f (x + h) = lı́m Px,k (h) = hj .
k→∞
j=0
j!

En particular, para x = 0, esto se reduce a la serie exponencial,



X hj h2 h3
eh = =1+h+ + + ...
j=0
j! 2 6

2. Sea f : R → R una función que es tres veces parcialmente diferenciable


con tercera derivada f 000 continua. Sean h > 0, y D+ f , D− f las siguientes
funciones:
f (x + h) − f (x)
D+ f (x) = , x ∈ R,
h
f (x) − f (x − h)
D− f (x) = , x ∈ R.
h
Por el teorema de Taylor existe una función ϕx,3 que satisface h−3 ϕx,3 (h) →
0 para h → 0 tal que
1 1
f (x + h) = f (x) + f 0 (x)h + f 00 (x)h2 + f 000 (x)h3 + ϕx,3 (h), h ∈ R.
2 6
Entonces,
1
D+ f (x) = f 0 (x) + f 00 (x)h + ψ+,x (h),
2
1
D− f (x) = f 0 (x) − f 00 (x)h + ψ−,x (h),
2

71
donde las funciones ψ±,x tienen la propiedad que caen a cero más rápida-
mente que h. Entonces las funciones D± f dan una aproximación para la
primera derivada de f . El error de estas aproximaciones es del orden h. Se
puede obtener una mejor aproximación definiendo las derivadas centradas,
D0 f por
f (x + h) − f (x − h) 1
D0 f (x) = = (D+ f (x) + D− f (x)) , x ∈ R.
2h 2
En este caso, obtenemos que
1
D0 f (x) = f 0 (x) + f 000 (x)h2 + ψ0,x (h),
6
donde la función ψ0,x tiene la propiedad que h−2 ψ0,x (h) → 0 para h → 0.
Entonces, D0 f (x) es una aproximación para la derivada de f con un error
del orden h2 .
Los operadores de diferencias finitas D± , D0 se usan en la discretización
de ecuaciones diferenciales con derivadas parciales.
En lo que sigue, generalizamos el teorema de Taylor para funciones que
dependen de un número n arbitrario de variables.
Definición 35 Sea f : U ⊂ Rn → R una función definida sobre un subconjunto
abierto U de Rn . f se llama k veces parcialmente diferenciable si existen
todas las derivadas parciales del orden menor o igual a k,
Di1 Di2 . . . Dij f : U ⊂ Rn → R, i1 , i2 , . . . , ij ∈ {1, 2, . . . , n}, j ≤ k.
f se llama k veces continuamente diferenciable si existen todas las deriva-
das parciales del orden menor o igual a k y si todas las derivadas
Di1 Di2 . . . Dij f : U ⊂ Rn → R, i1 , i2 , . . . , ij ∈ {1, 2, . . . , n}, j ≤ k.
son continuas. En este caso, definimos para cada x ∈ U las cantidades
n
X
D(j) f (x)(h) :=
 
Di1 Di2 . . . Dij f (x) hi1 hi2 . . . hij , j ≤ k,
i1 ,i2 ,...,ij =1

para h = (h1 , h2 , . . . , hn ) ∈ Rn .
Ejemplos
1. Para k = 0 definimos
D(0) f (x)(h) := f (x), x ∈ U, h ∈ Rn .

2. Para k = 1, tenemos que


n
X
D(1) f (x)(h) = [Di f (x)] hi = (grad f (x), h).
i=1

72
3. Para k = 2, tenemos que
n
X
D(2) f (x)(h) = [Di Dj f (x)] hi hj = (h, Hessf (x)h),
i,j=1

donde Hessf (x) es la matriz n × n real cuyas componentes Hessfij (x) :=


Di Dj f (x) son dadas por las segundas derivadas parciales de f en el punto
x. Hessf (x) se llama la matriz de Hesse de f en el punto x ∈ U . El
teorema que sigue demuestra que la matriz de Hesse es simétrica si las
segundas derivadas Di Dj f : U → R son funciones continuas.
Teorema 17 (Schwarz) Sea f : U ⊂ Rn → R una función definida sobre
un subconjunto abierto U de Rn que es dos veces continuamente diferenciable.
Entonces, las segundas derivadas conmutan, es decir,
Di Dj f (x) = Dj Di f (x)
para todos i, j ∈ {1, 2, . . . , n} y todos los puntos x ∈ U .
Demostración. Es suficiente considerar el caso n = 2 y x = (0, 0). Puesto
que U es abierto, existe δ > 0 tal que el cuadrado [−δ, δ]2 esté contenido en U .
Ahora fijamos primero y ∈ [−δ, δ] y definimos la función Fy : [−δ, δ] → R por
Fy (x) := f (x, y) − f (x, 0), |x| ≤ δ.
Dado que existen las derivadas parciales de f , la función Fy es diferenciable. Por
el teorema del valor medio existe para cada x ∈ [−δ, δ] un valor ξ = ξ(x, y) ∈ R
con |ξ| < |x| tal que
Fy (x) − Fy (0) = Fy0 (ξ)x = [D1 f (ξ, y) − D1 f (ξ, 0)] x.
Por otro lado, para cada x ∈ [−δ, δ] fijo la función [−δ, δ] → R, y 7→ D1 f (x, y)
es continua y diferenciable en cada punto y ∈ (−δ, δ) dado que f es dos veces
parcialmente diferenciable. Por el teorema del valor medio existe para cada
y ∈ [−δ, δ] un valor η = η(x, y) ∈ R con |η| < |y| tal que
D1 f (x, y) − D1 f (x, 0) = D2 D1 f (x, η)y.
Entonces,
f (x, y) − f (x, 0) − f (0, y) + f (0, 0) = Fy (x) − Fy (0) = D2 D1 f (ξ, η)xy. (67)
Intercambiando los papeles de x y y, encontramos de la misma manera valores
ξ˜ = ξ(x,
˜ y), η̃ = η̃(x, y) ∈ R con |ξ|
˜ < |x|, η̃| < |y| tales que
˜ η̃)xy.
f (x, y) − f (0, y) − f (x, 0) + f (0, 0) = D1 D2 f (ξ, (68)
(67) y (68) implican que para todos xy 6= 0, D2 D1 f (ξ, η) = D1 D2 f (ξ,˜ η̃). To-
mando una sucesión (xk , yk ) → (0, 0) con xk yk 6= 0 y usando la continuidad de
las funciones D1 D2 f y D2 D1 f , obtenemos que
D2 D1 f (0, 0) = D1 D2 f (0, 0).

73
Teorema 18 (teorema de Taylor en dimensiones n ≥ 1) Sean k ∈ N y U ⊂
Rn un subconjunto abierto de Rn . Sea f : U ⊂ Rn → R una función que es k
veces continuamente diferenciable. Sean x ∈ U y h ∈ Rn tales que el segmento
x + th, t ∈ [0, 1] esté contenido en U . Entonces existe θ ∈ (0, 1) tal que
k−1
X 1 (j) 1
f (x + h) = D f (x)(h) + D(k) f (x + θh)(h).
j=0
j! k!

Demostración. Puesto que U es abiero, existe δ > 0 tal que x + th ∈ U para


todos los t dentro del intervalo abierto I := (−δ, 1 + δ). Definimos la función
g : I → R por g(t) := f (x+th), t ∈ I. Dado que las primeras derivadas parciales
de f son continuas, f es diferenciable (ver teorema 14). Usando la regla de la
cadena, teorema 15, obtenemos que la función g es diferenciable y
n
X
g 0 (t) = [Di f (x + th)] hi = D(1) f (x + th)(h).
i=1

Si k ≥ 2, las funciones Di f : U → R son diferenciables y usando otras vez la


regla de la cadena, obtenemos que
n
X
g 00 (t) = [Dj Di f (x + th)] hi hj = D(2) f (x + th)(h).
i,j=1

Siguiendo de esta manera, encontramos que la función g es k veces diferenciable


y que g (j) (t) = D(j) f (x + th)(h), j = 1, 2, . . . , k. En particular, g (k) es conti-
nua puesto que las derivadas parciales Di1 Di2 . . . Dik f : U → R, i1 , i2 , . . . , ik ∈
{1, 2, . . . , n}, son continuas. Ahora aplicamos el teorema de Taylor en una di-
mensión, teorema 16, a la función g : I → R: Existe θ ∈ (0, 1) tal que
k−1
X g (j) (0) g (k) (θ)
g(1) = + ,
j=0
j! k!

es decir, tal que


k−1
X 1 (j) 1
f (x + h) = D f (x)(h) + D(k) f (x + θh)(h).
j=0
j! k!

Como en el caso n = 1 definimos el polinomio de Taylor Px,k del orden k de


f en el punto x por
k
X 1 (j)
Px,k (h) := D f (x)(h)
j=0
j!
k n
X 1 X  
= Di1 Di2 . . . Dij f (x) hi1 hi2 . . . hij .
j=0
j! i
1 ,i2 ,...,ij =1

74
Teorema 19 (teorema de Taylor en dimensiones n ≥ 1, segunda versión)
Sean k ∈ N y U ⊂ Rn un subconjunto abierto de Rn . Sea f : U ⊂ Rn → R una
función que es k veces continuamente diferenciable. Sean x ∈ U y δ > 0 tales
que Bδ (x) ⊂ U . Entonces existe una función error ϕx,k : Bδ (0) → R tal que

ϕx,k (h)
lı́m =0
h→0,h6=0 khkk

y
f (x + h) = Px,k (h) + ϕx,k (h)
para todos los h ∈ Bδ (0).

Demostración. Según la afirmación del teorema anterior existe para cada h ∈


Bδ (0) un valor θ ∈ (0, 1) tal que
1 (k)
f (x + h) = Px,k−1 (h) + D f (x + θh)(h) = Px,k (h) + ϕx,k (h),
k!
donde
1 h (k) i
ϕx,k (h) := D f (x + θh)(h) − D(k) f (x)(h)
k!
n
1 X
= [Di1 Di2 . . . Dik f (x + θh) − Di1 Di2 . . . Dik f (x)] hi1 hi2 . . . hik
k! i ,i ,...,i =1
1 2 k

satisface
n
1 X
ϕx,k (h) ≤ Di1 Di2 . . . Dik f (x + θh) − Di1 Di2 . . . Dik f (x) khkk .

k! i
1 ,i2 ,...,ik =1

La continuidad de las funciones Di1 Di2 . . . Dik f : U → R implica que


ϕx,k (h)
lı́m = 0.
h→0,h6=0 khkk

Ejemplo: Sea f : R2 → R una función que es dos veces continuamente diferen-


ciable. Entonces existe una función ϕ : R2 → R con khk−2 ϕ(h) → 0 para h → 0
tal que
1
f (x + h) = f (x) + (grad f (x), h) + (h, Hessf (x)h) + ϕ(h)
2
para todos los h ∈ R2 . Por ejemplo, la función f (x, y) := x2 + 2xy 2 + y 3 es dos
veces continuamente diferenciable y

grad f (x, y) = (2x + 2y 2 , 4xy + 3y 2 ),


 
2 4y
Hessf (x, y) = .
4y 4x + 6y

75
 
2 0
Dado que f (0, 0) = 0, grad f (0, 0) = (0, 0) y Hessf (0, 0) = , tenemos
0 0
que para h = (hx , hy ) ∈ R2 ,

f (hx , hy ) = h2x + ϕ(hx , hy ),

donde la función error ϕ satisface

ϕ(hx , hy )
→ 0, (hx , hy ) → (0, 0).
h2x + h2y

76
2.5. Extremos relativos de funciones f : Rn → R
Como una aplicación del teorema de Taylor vamos a analizar los extremos
relativos de funciones.
Definición 36 Sea f : U ⊂ Rn → R una función definida sobre un subconjunto
abierto U de Rn .
1. Un punto x ∈ U se llama mı́nimo relativo de f si existe δ > 0 tal que
Bδ (x) ⊂ U y

f (y) ≥ f (x), para todos y ∈ Bδ (x).

2. Un punto x ∈ U se llama mı́nimo relativo estricto de f si existe δ > 0


tal que Bδ (x) ⊂ U y

f (y) > f (x), para todos y ∈ Bδ (x) \ {x}.

3. Un punto x ∈ U se llama máximo relativo (estricto) de f si x es un


mı́nimo relativo (estricto) de −f .
4. Un punto x ∈ U se llama extremo relativo (estricto) de f si x es un
mı́nimo o un máximo relativo (estricto) de f .

Teorema 20 (condición necesaria para un extremo) Sea f : U ⊂ Rn →


R una función parcialmente diferenciable definida sobre un subconjunto abierto
U de Rn . Si x ∈ U es un extremo relativo de f , entonces

grad f (x) = 0.

Demostración. Sea {e1 , e2 , . . . , en } la base canónica de Rn . Defina las funcio-


nes g1 , . . . , gn por gj (t) := f (x + tej ) donde |t| es suficientemente pequeño (tal
que x + tej ∈ U ). Entonces gj es diferenciable y tiene un extremo relativo en
t = 0. Vamos a suponer que se trata de un mı́nimo relativo (de otra mane-
ra consideramos las funciones −gj en vez de las funciones gj ). Entonces, para
h > 0,
gj (h) − gj (0)
≥ 0,
h
y para h < 0,
gj (h) − gj (0)
≤ 0.
h
Como gj es diferenciable en el punto t = 0, la primera desigualdad implica que
gj0 (0) ≥ 0 mientras que la segunda desigualdad implica que gj0 (0) ≤ 0. Entonces,

0 = gj0 (0) = Dj f (x).

77
Definición 37 Sea f : U ⊂ Rn → R una función parcialmente diferencia-
ble definida sobre un subconjunto abierto U de Rn . Un punto x ∈ U tal que
grad f (x) = 0 se llama un punto crı́tico de f o un punto estacionario de
f.

El teorema anterior dice que si f es parcialmente diferenciable, los puntos


crı́ticos de f son candidatos para extremos relativos. Sin embargo, pueden existir
puntos crı́ticos que no son extremos relativos de f . Por ejemplo, la función
f : R → R, f (x) = x3 , x ∈ R, tiene un punto crı́tico en x = 0, pero x = 0 no es
un extremo relativo de f .

Definición 38 Sea f : U ⊂ Rn → R una función parcialmente diferenciable


definida sobre un subconjunto abierto U de Rn , y sea x ∈ U un punto crı́tico de
f . Si x no es un extremo relativo de f , x se llama un punto silla de f .

Observación: Si x ∈ U es un punto silla de f existen para cada δ > 0 puntos


y 1 y y 2 en la bola abierta Bδ (x) tales que

f (y 1 ) < f (x) < f (y 2 ).

Ahora vamos a usar el teorema de Taylor para obtener condiciones suficientes


para la existencia de extremos relativos o de puntos silla. La idea es la siguiente:
Sea f : U ⊂ Rn → R dos veces continuamente diferenciable, y sea x ∈ U un
punto crı́tico de f , es decir, grad f (x) = 0. Por la segunda versión del teorema de
Taylor, teorema 19, existe una función ϕ : Bδ (0) → R definida en una vecindad
de 0 tal que khk−2 ϕ(h) → 0 para h → 0 y
1
f (x + h) = f (x) + (h, Hessf (x)h) + ϕ(h)
2
para todos los h ∈ Bδ (0). Puesto que ϕ(h) cae a cero más rápidamente que khk2
cuando h → 0 el cambio de f al moverse del punto x al punto x + h es dado, en
buena aproximación, por la forma cuadrática
1
Q(h) := (h, Hessf (x)h)
2
cuando khk es pequeño. Entonces si Q(h) > 0 para h 6= 0, esperamos que x
es un mı́nimo relativo estricto de f , si Q(h) < 0 para h 6= 0, esperamos que x
es un máximo relativo estricto de f , mientras que si existen h1 y h2 tales que
Q(h1 ) < 0 < Q(h2 ), esperamos que x es un punto silla de f . Para analizar estas
condiciones, definimos

Definición 39 Sea A una matriz n × n real simétrica.


1. A se llama definida positiva si (h, Ah) > 0 para todos h ∈ Rn con h 6= 0.

2. A se llama definida negativa si −A es positiva definida.

78
3. A se llama indefinida si existen h1 , h2 ∈ Rn tales que (h1 , Ah1 ) < 0 <
(h2 Ah2 ).

Lema 5 Sea A una matriz n × n real simétrica. Entonces,


1. A es definida positiva si y sólo si todos los autovalores de A son estricta-
mente positivos.
2. A es definida negativa si y sólo si todos los autovalores de A son estricta-
mente negativos.
3. A es indefinida si y sólo si existe un autovalor de A que es estrictamente
negativo y un autovalor de A que es estrictamente positivo.

Demostración. Como A es simétrica existe una base ortonormal {v 1 , v 2 , . . . , v n }


de Rn donde v j , j = 1, 2, . . . , n, son los autovectores de A correspondientes a
n n
hj v j ∈ Rn . Entonces, Ah =
P P
los autovalores λj . Sea h = λj hj v j y
j=1 j=1

n
X
(h, Ah) = λj h2j . (69)
j=1

La afirmación del lema es una consecuencia directa de (69).

Teorema 21 (condiciones suficientes para un extremo estricto o un punto silla)


Sea f : U ⊂ Rn → R una función definida sobre un subconjunto abierto U de
Rn que es dos veces continuamente diferenciable. Sea x ∈ U un punto crı́tico de
f . Entonces,

(i) Si Hessf (x) es definida positiva, x es un mı́nimo relativo estricto de f .


(ii) Si Hessf (x) es definida negativa, x es un máximo relativo estricto de f .
(iii) Si Hessf (x) es indefinida, x es un punto silla de f .

Demostración. Por el teorema de Taylor, teorema 19, existe una función ϕ :


Bε (0) → R definida en una vecindad de 0 tal que khk−2 ϕ(h) → 0 para h → 0 y
1
f (x + h) = f (x) + (h, Hessf (x)h) + ϕ(h) (70)
2
para todos los h ∈ Bε (0).
(i) Sea A = Hessf (x) definida positiva. Entonces, usando (69), obtenemos
que
Xn
(h, Ah) ≥ α h2j = αkhk2 ,
j=1

79
donde α = mı́n{λj : j = 1, 2, . . . , n} > 0 es el autovalor mı́nimo de A. Por
otro lado, dado que khk−2 ϕ(h) → 0 para h → 0, existe δ ∈ (0, ε) tal que
α
|ϕ(h)| ≤ khk2
4
para todos h ∈ Bδ (0). Entonces para dichos h’s, (70) implica que
α α α
f (x + h) − f (x) ≥ khk2 − khk2 = khk2 .
2 4 4
En particular, f (x + h) − f (x) > 0 para 0 < khk < δ, lo que implica que
x es un mı́nimo relativo estricto de f .
(ii) Similar que (i).
(iii) Sea A = Hessf (x) indefinida. Entonces existen vectores h1 , h2 tales que
kh1 k = kh2 k = 1 y

α := (h1 , Ah1 ) < 0 < (h2 , Ah2 ) =: β.

Puesto que khk−2 ϕ(h) → 0 para h → 0, existe δ ∈ (0, ε) tal que

|α| 2 β 2
|ϕ(th1 )| ≤ t , |ϕ(th2 )| ≤ t ,
4 4
para todos |t| < δ. Entonces (70) implica que

α 2 |α| 2 |α|
f (x + th1 ) − f (x) ≤ t + t = − t2 < 0,
2 4 4
β 2 β 2 β 2
f (x + th2 ) − f (x) ≥ t − t = t > 0,
2 4 4
para 0 < |t| < δ. Entonces, x no puede ser un extremo relativo y x es un
punto silla.

Ejemplos
1. Sean a 6= 0, b 6= 0 dos valores reales, y sea f : R2 → R la función definida
por
1
ax2 + by 2 , (x, y) ∈ R2 .

f (x, y) =
2
Tenemos que
 
a 0
grad f (x, y) = (ax, by), Hessf (x, y) = , (x, y) ∈ R2 .
0 b

Entonces (0, 0) es el único punto crı́tico de f y


a) a > 0, b > 0: (0, 0) es un mı́nimo estricto de f .

80
b) a < 0, b < 0: (0, 0) es un máximo estricto de f .
c) ab < 0: (0, 0) es un punto silla de f .
2. ¡Si grad f (x) = 0 y si Hessf (x) posee uno o varios autovalores igual a cero
(y Hessf (x) no es indefinida) hay que tener cuidado! Por ejemplo, las tres
funciones fi : R2 → R, i = 1, 2, 3, definidas por

f1 (x, y) := x2 + y 4 ,
f2 (x, y) := x2 ,
f3 (x, y) := x2 + y 3 ,

para (x, y) ∈ R2 satisfacen todas


 
2 0
grad fi (0, 0) = (0, 0), Hessfi (0, 0) = ,
0 0

pero (0, 0) es un mı́nimo relativo estricto de f1 , un mı́nimo relativo no


estricto de f2 y un punto silla de f3 . En estos casos, es necesario analizar
los términos del orden más alto en la expansión de Taylor para decidir
si un punto crı́tico es un mı́nimo relativo estricto, un máximo relativo
estricto o un punto silla.

2.6. El teorema de funciones inversas


2.7. Campos vectoriales
2.8. Los teoremas de Gauss y de Stokes (sin demostración)
2.9. Ecuaciones diferenciales ordinarias
2.10. Funciones complejas

81
3. Teorı́a de grupos
3.1. Propiedades básicas de los grupos
3.2. Ejemplos de grupos discretos

Referencias
[1] H. Beyer, Calculus and Analysis: A combined approach, Wiley, 2010.
[2] M. Spivak, Calculus, Publish or Perish; 3rd edition.
[3] J. Marsden and A. Tromba, Vector Calculus, W. H. Freeman; 5th edition.

[4] W. Walter, Ordinary Differential Equations, Springer, New York 1998.

82

También podría gustarte