Vamos a iniciar la parte de métodos numéricos que trata de resolver problemas relacionados con el álgebra lineal.
Dichos problemas se engloban en dos grandes grupos:
En muchos algoritmos de machine learning y de big data, aparecen sistemas de ecuaciones lineales de gran tamaño que hay que resolver o valores y vectores propios de matrices que hay que hallar.
Por tanto, los métodos que vamos a ver son clave para entender bien los algoritmos de machine learning y big data relacionados con problemas de álgebra lineal numérica.
En este primer capítulo vamos a introducir todos los conceptos y las propiedades que nos harán falta para entender y practicar los algoritmos numéricos relacionados con el álgebra lineal numérica.
Una matriz \(\mathbf{A}\) en \(\mathbb{R}^n\) o en \(\mathbb{C}^n\) se puede entender como un vector de \(m\cdot n\) componentes organizado en \(m\) filas y \(n\) columnas: \[ \mathbf{A}=\begin{bmatrix}a_{11}&a_{12}&\ldots&a_{1n} \\a_{21}&a_{22}&\ldots&a_{2n} \\\vdots&\vdots&\ddots&\vdots \\a_{m1}&a_{m2}&\ldots&a_{mn} \\\end{bmatrix}, \] donde los valores \(a_{ij}\), \(i=1,2,\ldots,m\) y \(j=1,2,\ldots,n\) son los valores de la matriz que, como hemos indicado, pueden ser reales o complejos, dependiendo del problema en cuestión.
Ejemplos
Las dos matrices siguientes son matrices \(4\times 3\) (\(4\) filas y \(3\) columnas) y \(3\times 3\) (\(3\) filas y \(3\) columnas) reales: \[ \mathbf{A}_1=\begin{bmatrix}5&6&6 \\6&6&8 \\6&6&2 \\5&4&7 \\\end{bmatrix},\quad \mathbf{A}_2=\begin{bmatrix}5.130872&5.864982&5.090998 \\5.457783&4.458898&5.754271 \\5.006886&4.863587&5.802235 \\\end{bmatrix}. \]
Las matrices con el mismo número de filas que de columnas se denominan matrices cuadradas y son del tipo \(n\times n\), donde \(n\) será el número de filas o de columnas.
En el ejemplo anterior la matriz \(\mathbf{A}_2\) es una matriz cuadrada \(3\times 3\).
Al espacio vectorial de las matrices complejas de \(m\) filas y \(n\) columnas se le conoce por \({\cal M}_{m\times n}(\mathbb{C})\).
Ejercicio.
Verificar que el conjunto \({\cal M}_{m\times n}(\mathbb{K})\) es un espacio vectorial con las operaciones arriba indicadas.
Ejemplo.
Consideremos las matrices siguientes \(\mathbf{A}_1=\begin{bmatrix}6&5&3 \\6&4&2 \\3&6&4 \\\end{bmatrix}\) y \(\mathbf{A}_2=\begin{bmatrix}9&5&5 \\2&8&9 \\6&8&8 \\\end{bmatrix}\), entonces la suma \(\mathbf{A}_1+\mathbf{A}_2\) y \(3\cdot \mathbf{A}_1\) valen: \[ \mathbf{A}_1+\mathbf{A}_2 = \begin{bmatrix}15&10&8 \\8&12&11 \\9&14&12 \\\end{bmatrix},\quad 3\cdot \mathbf{A}_1 = \begin{bmatrix}18&15&9 \\18&12&6 \\9&18&12 \\\end{bmatrix}. \]
\[ \mathbf{I}_n=\begin{bmatrix}1&0&\ldots&0 \\0&1&\ldots&0 \\\vdots&\vdots&\ddots&\vdots \\0&0&\ldots&1 \\\end{bmatrix}. \]
\(\mathbf{A}^\top = \begin{bmatrix}a_{11}&a_{21}&\ldots&a_{m1} \\a_{12}&a_{22}&\ldots&a_{m2} \\\vdots&\vdots&\ddots&\vdots \\a_{1n}&a_{2n}&\ldots&a_{mn} \\\end{bmatrix}.\)
Las matrices traspuestas de las dos matrices que vimos en el primer ejemplo que recordemos que eran \(\mathbf{A}_1=\begin{bmatrix}5&6&6 \\6&6&8 \\6&6&2 \\5&4&7 \\\end{bmatrix}\) y \(\mathbf{A}_2=\begin{bmatrix}5.130872&5.864982&5.090998 \\5.457783&4.458898&5.754271 \\5.006886&4.863587&5.802235 \\\end{bmatrix}\) son las siguientes: \[ \mathbf{A}_1^\top = \begin{bmatrix}5&6&6&5 \\6&6&6&4 \\6&8&2&7 \\\end{bmatrix},\quad \mathbf{A}_2^\top = \begin{bmatrix}5.130872&5.457783&5.006886 \\5.864982&4.458898&4.863587 \\5.090998&5.754271&5.802235 \\\end{bmatrix}. \] La matriz inversa de la matriz cuadrada \(\mathbf{A_2}\) es la siguiente: \[ \mathbf{A}_2^{-1} = \begin{bmatrix}0.345367&1.513779&-1.804297 \\0.466466&-0.699035&0.28397 \\-0.689029&-0.720326&1.491287 \\\end{bmatrix}. \] Dejamos como ejercicio que comprobéis que \(\mathbf{A}_2\cdot \mathbf{A_2}^{-1}=\mathbf{I}_3\).
Existen los siguientes tipos de matrices cuadradas:
\[\begin{bmatrix}a_{11}&\ldots&a_{1q}&0&0&\ldots&0 \\\vdots&a_{22}&\ldots&a_{2,1+q}&0&\ldots&0 \\\vdots&\vdots&\vdots&\vdots&\vdots&\vdots&\vdots \\a_{p1}&\vdots&\vdots&\ddots&\vdots&\vdots&\vdots \\0&a_{p+1,2}&\vdots&\vdots&\vdots&\vdots&\vdots \\0&\ldots&\ldots&\ldots&\ldots&\ldots&\ldots \\0&\ldots&\ldots&\ldots&\ldots&\ldots&a_{nn} \\\end{bmatrix}\]
Dentro de las matrices \((p,q)\) banda, tenemos las siguientes:
\[\begin{bmatrix}a_{11}&0&\ldots&0 \\0&a_{22}&\ldots&0 \\\vdots&\vdots&\ddots&\vdots \\0&\ldots&0&a_{nn} \\\end{bmatrix}.\]
\[\begin{bmatrix}a_{11}&a_{12}&0&0&\ldots&0 \\a_{21}&a_{22}&a_{23}&0&\ldots&0 \\0&a_{32}&a_{33}&a_{34}&\ldots&0 \\\vdots&\vdots&\vdots&\ddots&\vdots&\vdots \\0&\ldots&0&a_{n-1,n-2}&a_{n-1,n-1}&a_{n-1,n} \\0&\ldots&\ldots&0&a_{n,n-1}&a_{nn} \\\end{bmatrix},\] es decir, para cada fila \(i\)-ésima, sólo tres valores como máximo son distintos de \(0\): \(a_{i,i-1},a_{i,i}\) y \(a_{i,i+1}\).
La matriz \(\mathbf{A}\) es pentadiagonal si \(p=q=3\), es decir, para cada fila \(i\)-ésima, sólo cinco valores como máximo son distintos de \(0\): \(a_{i,i-2},a_{i,i-1},a_{i,i},a_{i,i+1}\) y \(a_{i,i+2}\).
La matriz \(\mathbf{A}\) es triangular superior si \(p=1, q=n\):
\[\begin{bmatrix}a_{11}&a_{12}&\ldots&a_{1n} \\0&a_{22}&\ldots&a_{2n} \\\vdots&\vdots&\ddots&\vdots \\0&\ldots&0&a_{nn} \\\end{bmatrix},\] es decir todos los elementos por “debajo de la diagonal” son nulos.
\[\begin{bmatrix}a_{11}&0&\ldots&0 \\a_{21}&a_{22}&\ldots&0 \\\vdots&\vdots&\ddots&\vdots \\a_{n1}&\ldots&a_{n,n-1}&a_{nn} \\\end{bmatrix},\] es decir todos los elementos por “encima de la diagonal” son nulos.
\[\begin{bmatrix}a_{11}&a_{12}&a_{13}&a_{14}&\ldots&a_{1n} \\a_{21}&a_{22}&a_{23}&a_{24}&\ldots&a_{2n} \\0&a_{32}&a_{33}&a_{34}&\ldots&a_{3n} \\\vdots&\vdots&\vdots&\ddots&\vdots&\vdots \\0&\ldots&0&a_{n-1,n-2}&a_{n-1,n-1}&a_{n-1,n} \\0&\ldots&\ldots&0&a_{n,n-1}&a_{nn} \\\end{bmatrix},\] es decir, fijada una columna \(j\), todos los elementos de la forma \(a_{kj}\) valen \(0\) para \(k=j+2,\ldots,n\).
\[\begin{bmatrix}a_{11}&a_{12}&0&0&\ldots&0 \\a_{21}&a_{22}&a_{23}&0&\ldots&0 \\a_{31}&a_{32}&a_{33}&a_{34}&\ldots&0 \\\vdots&\vdots&\vdots&\ddots&\vdots&\vdots \\a_{n-1,1}&\ldots&\ldots&a_{n-1,n-2}&a_{n-1,n-1}&a_{n-1,n} \\a_{n1}&\ldots&\ldots&\ldots&a_{n,n-1}&a_{nn} \\\end{bmatrix},\] es decir, fijada una fila \(i\), todos los elementos de la forma \(a_{ik}\) valen \(0\) para \(k=i+2,\ldots,n\).
También, en el ámbito de álgebra lineal, cuando una matriz \(\mathbf{A}\) es diagonalizable, los elementos de la matriz diagonal \(\mathbf{D}\) se denominan valores propios y las columnas de la matriz \(\mathbf{C}\) de cambio de base se denominan vectores propios.
La matriz \(\mathbf{A}=\begin{bmatrix}3.8&-2.4&-0.4 \\3.2&-2.6&0.4 \\-1.6&0.8&1.8 \\\end{bmatrix}\) es diagonalizable ya que existe una matriz \(\mathbf{C}=\begin{bmatrix}2&1&-2 \\2&2&-1 \\2&0&2 \\\end{bmatrix}\) tal que: \[ \mathbf{C}^{-1}\cdot \mathbf{A}\cdot \mathbf{C}=\begin{bmatrix}0.4&-0.2&0.3 \\-0.6&0.8&-0.2 \\-0.4&0.2&0.2 \\\end{bmatrix}\cdot \begin{bmatrix}3.8&-2.4&-0.4 \\3.2&-2.6&0.4 \\-1.6&0.8&1.8 \\\end{bmatrix}\cdot \begin{bmatrix}2&1&-2 \\2&2&-1 \\2&0&2 \\\end{bmatrix}=\begin{bmatrix}1&0&0 \\0&-1&0 \\0&0&3 \\\end{bmatrix}. \]
\[\mathbf{D}=\begin{bmatrix}\lambda_{1}&0&\ldots&0 \\0&\lambda_{2}&\ldots&0 \\\vdots&\vdots&\ddots&\vdots \\0&\ldots&0&\lambda_{n} \\\end{bmatrix}.\]
Consideremos la matriz: \[ \mathbf{A}=\begin{bmatrix}1.666667&-0.333333&-0.333333 \\-0.333333&2.166667&-0.833333 \\-0.333333&-0.833333&2.166667 \\\end{bmatrix}. \] La matriz anterior es simétrica, por tanto, existe una matriz ortogonal, \(\mathbf{C}=\begin{bmatrix}0.57735&0.816497&0 \\0.57735&-0.408248&0.707107 \\0.57735&-0.408248&-0.707107 \\\end{bmatrix}\), tal que \[ \mathbf{C}^\top\cdot\mathbf{A}\cdot\mathbf{C}=\begin{bmatrix}1&0&0 \\0&2&0 \\0&0&3 \\\end{bmatrix}. \]
Veamos si la matriz \(\mathbf{A}\) es definida positiva aplicando el criterio de Sylvester:
Los determinantes principales son los siguientes: \[ \begin{align*} \mathrm{det}(\mathbf{A}_1)= & 1.6666667>0,\quad \mathrm{det}(\mathbf{A}_2)=\begin{vmatrix}1.666667&-0.333333 \\-0.333333&2.166667 \\\end{vmatrix}=3.5>0,\\ \mathrm{det}(\mathbf{A}_3)= & \begin{vmatrix}1.666667&-0.333333&-0.333333 \\-0.333333&2.166667&-0.833333 \\-0.333333&-0.833333&2.166667 \\\end{vmatrix}=6>0. \end{align*} \] Usando el criterio de Sylvester, podemos afirmar que la matriz \(\mathbf{A}\) es definida positiva.
Es decir, el “efecto” que tiene la matriz \(\mathbf{A}\) sobre el vector \(\mathbf{v}\) es alargándolo o reduciéndolo un factor \(\lambda\).
Hallar los valores y vectores propios es fundamental para estudiar el comportamiento de una matriz \(\mathbf{A}\) y tiene multitud de aplicaciones en machine learning y big data.
Para hallar los valores propios de una matriz \(\mathbf{A}\), hemos de hallar los ceros de la denominada ecuación característica de \(\mathbf{A}\): \[ p_A(\lambda)=\mathrm{det}(\mathbf{A}-\lambda\cdot\mathbf{I}_n)=0. \] La función \(p_A(\lambda)\) es un polinomio de grado \(n\) en \(\lambda\). Por tanto, hallar valores propios es equivalente a hallar ceros del polinomio característico \(p_A(\lambda)\).
Una vez hallado un valor propio \(\lambda_1\) de la matriz \(A\), para hallar los vectores propios \(\mathbf{v}_1\) de valor propio \(\lambda_1\), hemos de resolver la ecuación: \[ \mathbf{A}\cdot\mathbf{v}_1 =\lambda_1\mathbf{v}_1,\ \Rightarrow (\mathbf{A}-\lambda_1\mathbf{I}_n)\cdot\mathbf{v}_1=\mathbf{0}. \] La ecuación anterior es lineal, homogénea e indeterminada, es decir, tiene muchas soluciones.
Consideremos la matriz vista anteriormente \(\mathbf{A}=\begin{bmatrix}3.8&-2.4&-0.4 \\3.2&-2.6&0.4 \\-1.6&0.8&1.8 \\\end{bmatrix}.\)
Hallemos sus valores propios.
Para ello, tenemos que hallar primero la ecuación característica:
\[ |\mathbf{A}-\lambda\mathbf{I}_n|=\begin{vmatrix}3.8-\lambda&-2.4&-0.4 \\3.2&-2.6-\lambda&0.4 \\-1.6&0.8&1.8-\lambda \\\end{vmatrix}=0. \] Desarrollando el determinante anterior, obtenemos el polinomio característico y la ecuación característica de \(\mathbf{A}\): \[ -\lambda ^3+3 \lambda ^2+ \lambda -3=0. \] Las soluciones de la ecuación característica son las siguientes: \(\lambda =-1,1,3\).
A continuación, hallemos los vectores propios correspondientes:
\[ (\mathbf{A}-(-1)\mathbf{I}_3)\cdot \mathbf{v}=\begin{bmatrix}4.8&-2.4&-0.4 \\3.2&-1.6&0.4 \\-1.6&0.8&2.8 \\\end{bmatrix}\cdot\mathbf{v}=\begin{bmatrix}0 \\0 \\0 \\\end{bmatrix}. \] Hemos de resolver el sistema de ecuaciones siguiente indeterminado: \[ \left. \begin{align*} 4.8v_1 -2.4v_2 -0.4v_3= & 0,\\ 3.2v_1 -1.6v_2+0.4v_3= & 0,\\ -1.6v_1+0.8v_2+2.8v_3= & 0. \end{align*} \right\} \] El sistema anterior es indeterminado ya que el determinante del sistema vale cero: \(\begin{vmatrix}4.8&-2.4&-0.4 \\3.2&-1.6&0.4 \\-1.6&0.8&2.8 \\\end{vmatrix}=0\).
Para resolverlo, consideramos la variable \(v_1\) libre y resolvemos el sistema restante en las otras variable \(v_2\) y \(v_3\): \[ \left. \begin{align*} -2.4v_2 -0.4v_3 = & -4.8v_1,\\ -1.6v_2 +0.4v_3= & -3.2v_1. \end{align*} \right\} \] Las soluciones del sistema anterior son: \(v_2=2 v_1,\ v_3=0\). Los vectores propios de valor propio \(-1\) son los siguientes:
\[ v^{(-1)}=\begin{bmatrix}v_1 \\2v_1 \\0 \\\end{bmatrix}=v_1\cdot \begin{bmatrix}1 \\2 \\0 \\\end{bmatrix}, \] con \(v_1\) libre. Por tanto, forman un subespacio vectorial de dimensión \(1\).
\[ v^{(1)}=\begin{bmatrix}v_1 \\v_1 \\v_1 \\\end{bmatrix}=v_1\cdot \begin{bmatrix}1 \\1 \\1 \\\end{bmatrix}, \] con \(v_1\) libre. Por tanto, también forman un subespacio vectorial de dimensión \(1\).
\[ v^{(3)}=\begin{bmatrix}v_1 \\0.5v_1 \\-v_1 \\\end{bmatrix}=v_1\cdot \begin{bmatrix}1 \\0.5 \\-1 \\\end{bmatrix}, \] con \(v_1\) libre. Por tanto, también forman un subespacio vectorial de dimensión \(1\).
Dada una matriz cuadrada \(\mathbf{A}\in {\cal M}_{n,n}\), los valores propios de \(\mathbf{A}\) y de su traspuesta \(\mathbf{A}^\top\) son los mismos.
Dado un valor propio \(\lambda\) de la matriz \(\mathbf{A}\) o \(\mathbf{A}^\top\), los vectores propios \(\mathbf{v}^{(d)}_{\lambda}\) de \(\mathbf{A}\) de valor propio \(\lambda\) se denominan vectores propios por la derecha de \(\mathbf{A}\) y los vectores propios \(\mathbf{v}^{(i)}_{\lambda}\) de \(\mathbf{A}^\top\) de valor propio \(\lambda\) se denominan vectores propios por la izquierda de \(\mathbf{A}\). Entonces \(\mathbf{v}^{(d)}_{\lambda}\) es ortogonal a \(\mathbf{v}^{(i)}_{\mu}\) si los valores propios \(\lambda\) y \(\mu\) de la matriz \(\mathbf{A}\) son diferentes: \(\lambda\neq \mu\).
Una matriz \(\mathbf{A}\) es regular si, y sólo si, todos sus valores propios son diferentes de cero. En este caso, si \(\mathbf{v}\) es un vector propio de \(\mathbf{A}\) de valor propio \(\lambda\), entonces \(\mathbf{v}\) es un vector propio de \(\mathbf{A}^{-1}\) de valor propio \(\frac{1}{\lambda}\).
Dos matrices semejantes \(\mathbf{A}, \mathbf{B}\in {\cal M}_{n,n}\) tienen los mismos valores propios. Sea \(\mathbf{C}\) la matriz de cambio de base, es decir, \(\mathbf{B}=\mathbf{C}^{-1}\cdot\mathbf{A}\cdot\mathbf{C}\). Entonces si \(\mathbf{v}\) es un vector propio de valor propio \(\lambda\) de la matriz \(\mathbf{A}\), entonces \(\mathbf{C}^{-1}\mathbf{v}\) es un vector propio de la matriz \(\mathbf{B}\) del mismo valor propio \(\lambda\) de la matriz \(\mathbf{B}\).
Sea \(\mathbf{A}\) una matriz escrita en bloques de la forma siguiente: \[ \mathbf{A}=\begin{bmatrix} \mathbf{A}_{11}&\mathbf{A}_{12}\\ \mathbf{0} & \mathbf{A}_{22} \end{bmatrix}, \] donde las submatrices \(\mathbf{A}_{11}\) y \(\mathbf{A}_{22}\) son cuadradas. Entonces el conjunto de valores propios de la matriz \(\mathbf{A}\) es la unión de los valores propios de las submatrices \(\mathbf{A}_{11}\) y \(\mathbf{A}_{22}\).
Sea \(\mathbf{A}\) una matriz \(n\times n\), \(\mathbf{A}\in {\cal M}_{n,n}\) y sea \(p(x)\) un polinomio no nulo. Entonces, \(\mathbf{v}\) es un vector propio de valor propio \(\lambda\) de la matriz \(\mathbf{A}\) si, y sólo si, \(\mathbf{v}\) es un vector propio de valor propio \(p(\lambda)\) de la matriz \(p(\mathbf{A})\).
Sean \(\lambda_1,\lambda_2,\ldots,\lambda_n\) los valores propios de una matriz \(\mathbf{A}\in {\cal M}_{n,n}\), repetidos según su multiplicidad. Entonces: \[ \mathrm{tr}(\mathbf{A}):=\sum_{i=1}^n a_{ii}=\sum_{i=1}^n \lambda_i,\quad \mathrm{det}(\mathbf{A})=\prod_{i=1}^n \lambda_i. \]
Sea \(\mathbf{A}\in {\cal M}_{n,n}\) una matriz diagonalizable con matriz de cambio de base \(\mathbf{C}\), es decir, \(\mathbf{C}^{-1}\cdot\mathbf{A}\cdot\mathbf{C}=\mathbf{D}\), con \(\mathbf{D}\) matriz diagonal. Entonces los elementos diagonales de \(\mathbf{D}\) son los valores propios de la matriz \(\mathbf{A}\) y las columnas de la matriz \(\mathbf{C}\) forman una base de vectores propios por la derecha de la matriz \(\mathbf{A}\) y las filas de \(\mathbf{C}^{-1}\) forman una base de vectores propios por la izquierda de la matriz \(\mathbf{A}\).
Dada una matriz \(\mathbf{A}\in {\cal M}_{n,n}\) y dados \(\mathbf{v}_1\) y \(\mathbf{v}_2\) vectores propios de valores propios \(\lambda_1\) y \(\lambda_2\), respectivamente, con \(\lambda_1\neq \lambda_2\). Entonces \(\mathbf{v}_1\) y \(\mathbf{v}_2\) son linealmente independientes.
Una consecuencia de la propiedad anterior es que si una matriz \(\mathbf{A}\in {\cal M}_{n,n}\) tiene \(n\) valores propios diferentes, entonces es diagonalizable.
Una matriz simétrica \(\mathbf{A}=\mathbf{A}^\top \in {\cal M}_{n,n}\) es diagonalizable y los valores diagonales de la matriz diagonal \(\mathbf{D}\) son los valores propios de la matriz \(\mathbf{A}\). Además, sabemos que la matriz de cambio de base \(\mathbf{C}^\top\) se puede elegir ortogonal (\(\mathbf{C}^\top =\mathbf{C}^{-1}\)), es decir \(\mathbf{C}^\top\cdot\mathbf{A}\cdot\mathbf{C}=\mathbf{D}\). Las columnas de dicha matriz forma la base de vectores propios de la matriz \(\mathbf{A}\).
Si una matriz \(\mathbf{A}\) es simétrica y definida positiva, sus valores propios reales son positivos.
Consideremos la matriz \(\mathbf{A}=\begin{bmatrix}7&4&3 \\5&5&9 \\3&7&7 \\\end{bmatrix}.\)
Los valores propios de la matriz anterior son los siguientes: \(16.7971432, 4.4502857, -2.2474289\) con vectores propios:
Si calculamos los valores propios de \(\mathbf{A}^\top\) de la traspuesta y sus correspondientes vectores propios obtenemos:
Vemos que obtenemos los mismos valores propios.
Comprobemos a continuación que \(\mathbf{v}_i\cdot \mathbf{w}_j=0\) si \(i\neq j\), es decir, los \(\mathbf{v}_i\) son ortogonales a los \(\mathbf{w}_j\) si \(i\neq j\). Damos los detalles para \(i=1\) y \(j=2\) y dejamos los demás casos como ejercicio: \[ \mathbf{v}_1\cdot\mathbf{w}_2=-0.452635\cdot (-0.863311)+(-0.654144)\cdot 0.15138+(-0.605984)\cdot 0.481433=0. \]
Calculemos a continuación los valores y vectores propios de \(\mathbf{A}^{-1}\):
Vemos que los valores propios de \(\mathbf{A}^{-1}\) son los recíprocos de los valores propios de \(\mathbf{A}\) y, salvo cambios de signo, las matrices \(\mathbf{A}\) y \(\mathbf{A}^{-1}\) tienen los mismos vectores propios.
El Teorema de Gerschgorin nos dice que los valores propios de la matriz \(\mathbf{A}\) está en la unión de los discos siguientes en el plano complejo: \[ F_1 =\{\lambda\ |\ |\lambda- 7|\leq 7\},\quad F_2 =\{\lambda\ |\ |\lambda- 5|\leq 14\},\quad F_3 =\{\lambda\ |\ |\lambda- 7|\leq 10\}. \] En nuestro caso, \(F_1\) es el disco de centro \((7,0)\) y radio \(7\), \(F_2\), el disco de centro \((5,0)\) y radio \(14\) y \(F_3\), el disco de centro \((7,0)\) y radio \(10\).
El gráfico que se muestra a continuación contiene los tres discos junto con los tres valores propios.
Observamos que \(\lambda_1 =16.797143\) está en los discos \(F_2\) y \(F_3\), \(\lambda_2=4.450286\) está en todos los discos y \(\lambda_3=-2.247429\) está en los discos \(F_2\) y \(F_3\).
Dejamos como ejercicio aplicar el Teorema para los discos \(C_i\), \(i=1,2,3\).
Veamos que la traza de \(\mathbf{A}\) es la suma de sus valores propios: \[ \mathrm{tr}(A)=7+5+7=19=16.797143+4.450286+(-2.247429)=19. \] A continuación, veamos que el determinante de \(\mathbf{A}\) es el producto de sus valores propios: \[ \mathrm{det}(A)=-168=16.797143\cdot 4.450286\cdot (-2.247429)=-168. \] En este ejemplo, como los tres valores propios son diferentes, la matriz \(\mathbf{A}\) es diagonalizable y los vectores propios de valores propios diferentes son linealmente independientes.
Dado un espacio vectorial \(E\) sobre \(\mathbb{R}\) o sobre \(\mathbb{C}\) que, para fijar ideas podemos suponer que \(E=\mathbb{R}^n\) o \(E=\mathbb{C}^n\), donde \(n\) sería la dimensión de \(E\), una norma sobre \(E\) es una aplicación: \[ \begin{align*} \|\ \|:E & \longrightarrow \mathbb{R}^+\\ \mathbf{x} & \longrightarrow \|\mathbf{x}\| \end{align*} \] que cumple las propiedades siguientes:
Intuitivamente, una normal vectorial asocia a cada vector o elemento del espacio vectorial \(E\), una cantidad positiva intentando medir alguna cantidad del vector.
Existen tres normas muy usadas:
La norma 1 que sería la norma \(p\)-ésima para \(p=1\): \[ \|\mathbf{x}\|_1=\|(x_1,x_2,\ldots,x_n)\|_1=\sum_{i=1}^n |x_i|. \]
La norma infinito: \[ \|\mathbf{x}\|_\infty=\|(x_1,x_2,\ldots,x_n)\|_\infty=\max_{i=1,2,\ldots,n} |x_i|. \]
Consideremos el vector \(\mathbf{x}=(1,2,-1)\) en el espacio vectorial \(\mathbb{R}^3\). El valor de las tres normas introducidas anteriormente sería:
Consideremos ahora el espacio vectorial de las matrices cuadradas de \(n\times n\), es decir, de \(n\) filas y \(n\) columnas, \({\cal M}_{n,n}\). Una norma matricial sobre dicho espacio es una aplicación: \[ \begin{align*} \|\ \|:{\cal M}_{n,n} & \longrightarrow \mathbb{R}^+\\ \mathbf{A} & \longrightarrow \|\mathbf{A}\| \end{align*} \] que cumple las propiedades siguientes:
Una norma matricial sobre el espacio vectorial de las matrices \({\cal M}_{n,n}(\mathbb{R})\) se podría interpretar como una norma vectorial sobre el espacio vectorial \(\mathbb{K}^{n^2}\) pero con una propiedad adicional, la cuarta, que tiene en cuenta la estructura de la matriz en filas y columnas.
Dada una norma vectorial sobre \(\mathbb{R}^n\) (fijaremos ideas en \(\mathbb{K}=\mathbb{R}\) pero hemos de pensar que \(\mathbb{K}\) puede ser \(\mathbb{C}\)), se puede definir la norma matricial subordinada a la vectorial de la forma siguiente:
Dada una matriz \(\mathbf{A}\in {\cal M}_{n,n}(\mathbb{R})\), definimos \[ \|\mathbf{A}\|=\max_{\mathbf{x}\neq \mathbf{0}}\frac{\|\mathbf{A}\mathbf{x}\|}{\|\mathbf{x}\|}=\max_{\|\mathbf{z}\|=1}\|\mathbf{A}\mathbf{z}\|. \] La última igualdad se deduce teniendo en cuenta que para todo vector \(\mathbf{x}\in\mathbb{R}^n\), con \(\mathbf{x}\neq \mathbf{0}\), el vector \(\frac{\mathbf{x}}{\|\mathbf{x}\|}\) tiene norma \(1\): \(\left\|\frac{\mathbf{x}}{\|\mathbf{x}\|}\right\|=1.\) Entonces, haciendo \(\mathbf{z}=\frac{\mathbf{x}}{\|\mathbf{x}\|}\): \[ \|\mathbf{A}\|=\max_{\mathbf{x}\neq \mathbf{0}}\frac{\|\mathbf{A}\mathbf{x}\|}{\|\mathbf{x}\|}=\max_{\mathbf{x}\neq \mathbf{0}}\mathbf{\|}{A}\left(\frac{\mathbf{x}}{\|\mathbf{x}\|}\right) \|=\max_{\|\mathbf{z}\|=1}\|\mathbf{A}\mathbf{z}\|. \]
Dada una norma vectorial, la norma matricial subordinada a dicha norma vectorial es una norma matricial, es decir, cumple las \(4\) condiciones de norma matricial.
Demostración
Demostremos las propiedades que tiene que verificar una norma matricial:
Supongamos que \(\|\mathbf{A}\|=\max_{\|\mathbf{z}\|=1}\|\mathbf{A}\mathbf{z}\|=0\). Entonces, para cualquier \(\mathbf{z}\) con \(\|\mathbf{z}\|=1\), \(\|\mathbf{A}\mathbf{z}\|=0\).
Usando que \(\|\cdot \|\) es una normal vectorial tendremos que \(\mathbf{A}\mathbf{z}=\mathbf{0}\), para todo \(\mathbf{z}\) con \(\|\mathbf{z}\|=1\). De aquí deducimos que para todo \(\mathbf{x}\in\mathbb{R}^n\), \(\mathbf{A}\mathbf{x}=\mathbf{0}\) ya que: \[ \mathbf{A}\mathbf{x}=\|x\| \|\mathbf{A}\left(\frac{\mathbf{x}}{\|x\|}\right) \|=\|x\|\cdot \mathbf{0}=\mathbf{0}, \] ya que el vector \(\mathbf{z}=\frac{\mathbf{x}}{\|x\|}\) tiene norma vectorial igual a \(1\).
Demostración (continuación)
Como para todo \(\mathbf{x}\), \(\mathbf{A}\mathbf{x}=\mathbf{0}\), deducimos que \(\mathbf{A}=\mathbf{0}\) ya que la única matriz que da \(\mathbf{0}\) aplicada a todo vector \(\mathbf{x}\) es la matriz \(\mathbf{0}\).
Si \(\mathbf{A}=\mathbf{0}\), es trivial ver que \(\|\mathbf{A}\|=\max_{\|\mathbf{z}\|}\|\mathbf{A}\mathbf{z}\|=0\).
Sea \(\lambda\in\mathbb{R}\) y \(\mathbf{A}\in {\cal M}_{n,n}(\mathbb{R})\), entonces: \[ \|\lambda\mathbf{A}\|=\max_{\|\mathbf{z}\|=1}\|\lambda\mathbf{A}\mathbf{z}\|=\max_{\|\mathbf{z}\|=1}|\lambda|\|\mathbf{A}\mathbf{z}\|=|\lambda|\max_{\|\mathbf{z}\|=1}\|\mathbf{A}\mathbf{z}\|=|\lambda|\cdot\|\mathbf{A}\|. \]
Sean \(\mathbf{A},\mathbf{B}\in {\cal M}_{n,n}(\mathbb{R})\). Entonces, \[ \begin{align*} \|\mathbf{A}+\mathbf{B}\|= & \max_{\|z\|=1}\|(\mathbf{A}+\mathbf{B})(\mathbf{z})\|=\max_{\|z\|=1}\|(\mathbf{A}(\mathbf{z})+\mathbf{B}(\mathbf{z}))\|\leq \max_{\|z\|=1}(\|\mathbf{A}(\mathbf{z})\|+\|\mathbf{B}(\mathbf{z})\|)\\ \leq & \max_{\|z\|=1}\|\mathbf{A}(\mathbf{z})\|+\max_{\|z\|=1}\|\mathbf{B}(\mathbf{z})\|=\|\mathbf{A}\|+\|\mathbf{B}\|. \end{align*} \]
Demostración (continuación)
Para demostrar esta propiedad, necesitamos un lema previo:
Para todo \(\mathbf{x}\in\mathbb{R}^n\) con \(\mathbf{x}\neq \mathbf{0}\) y para toda \(\mathbf{A}\in {\cal M}_{n,n}(\mathbb{R})\), entonces \(\|\mathbf{A}\mathbf{x}\|\leq \|\mathbf{A}\|\cdot\|\mathbf{x}\|\).
Demostración del lema
\[ \|\mathbf{A}\mathbf{x}\|=\|x\| \|\mathbf{A}\left(\frac{\mathbf{x}}{\|x\|}\right)\|\leq \|x\|\max_{\|z\|=1}\|\mathbf{A}\mathbf{z}\|=\|x\|\cdot\|\mathbf{A}\|. \]
Veamos la demostración de la cuarta propiedad. Sean \(\mathbf{A},\mathbf{B}\in {\cal M}_{n,n}(\mathbb{R})\), entonces usando el lema anterior, tendremos que: \[ \|\mathbf{A}\cdot\mathbf{B}\| =\max_{\|\mathbf{z}\|=1}\|\mathbf{A}(\mathbf{B}(\mathbf{z}))\|\leq \max_{\|\mathbf{z}\|=1}\|\mathbf{A}\|\cdot \|\mathbf{B}\mathbf{z}\|\leq \max_{\|\mathbf{z}\|=1}\|\mathbf{A}\|\cdot \|\mathbf{B}\|\cdot\|\mathbf{z}\|=\|\mathbf{A}\|\cdot\|\mathbf{B}\|. \]
Vamos a ver cómo se calcula la norma euclídea de una matriz \(\mathbf{A}\in {\cal M}_{n,n}(\mathbb{K})\), con \(\mathbb{K}=\mathbb{R}\) o \(\mathbb{K}=\mathbb{C}\).
Primero necesitamos una definición previa:
Sea \(\mathbf{B}\in {\cal M}_{n,n}(\mathbb{K})\), con \(\mathbb{K}=\mathbb{R}\) o \(\mathbb{K}=\mathbb{C}\), una matriz cuadrada de \(n\) filas y \(n\) columnas. El radio espectral \(\rho(\mathbf{B})\) de la matriz \(\mathbf{B}\) es el máximo en valor absoluto (caso real) o en módulo (caso complejo) de sus valores propios: \[ \rho(\mathbf{B})=\max_{i=1,2,\ldots,n}|\lambda_i|, \] donde \(\lambda_1,\lambda_2,\ldots,\lambda_n\) son los valores propios repetidos según su multiplicidad de la matriz \(\mathbf{B}\).
Sea \(\mathbf{A}\in {\cal M}_{n,n}(\mathbb{K})\), con \(\mathbb{K}=\mathbb{R}\) o \(\mathbb{K}=\mathbb{C}\), una matriz cuadrada de \(n\) filas y \(n\) columnas. La norma euclídea de la matriz \(\mathbf{A}\) es la raíz cuadrada del radio espectral de la matriz \(\mathbf{A}^\top\mathbf{A}\): \(\|\mathbf{A}\|_2=\sqrt{\rho(\mathbf{A}^\top\mathbf{A})}.\)
Antes de realizar la demostración, necesitamos dos lemas y una observación:
Es decir: \[ \|x\|_2 = \sqrt{\mathbf{x}^\top\cdot\mathbf{x}}=\sqrt{\sum_{i=1}^n x_i^2}. \]
La demostración del lema anterior es muy sencilla por lo que la dejamos como ejercicio ya que basta aplicar la definición de norma euclídea de un vector \(\mathbf{x}\in\mathbb{K}^n\), con \(\mathbb{K}=\mathbb{R}\) o \(\mathbb{K}=\mathbb{C}\).
Sea \(\mathbf{C}\in {\cal M}_{n,n}(\mathbb{K})\), con \(\mathbb{K}=\mathbb{R}\) o \(\mathbb{K}=\mathbb{C}\) una matriz ortogonal (\(\mathbf{C}^\top =\mathbf{C}^{-1}\)). Entonces para cualquier vector \(\mathbf{x}\in\mathbb{K}^n\), \[ \|\mathbf{C}\mathbf{x}\|_2 =\|\mathbf{x}\|_2. \]
Demostración
Usando el lema anterior, tenemos que: \[ \|\mathbf{C}\mathbf{x}\|_2^2 =(\mathbf{C}\mathbf{x})^\top\mathbf{C}\mathbf{x}=\mathbf{x}^\top\mathbf{C}^\top\mathbf{C}\mathbf{x}=\mathbf{x}^\top\mathbf{I}\mathbf{x}=\mathbf{x}^\top\mathbf{x}=\|\mathbf{x}\|_2^2. \]
Como la matriz \(\mathbf{A}^\top\mathbf{A}\) es simétrica todos sus valores propios serán reales. Además sabemos que existe una matriz \(\mathbf{C}\) ortogonal tal que \(\mathbf{C}^\top\cdot\mathbf{A}^\top\mathbf{A}\cdot\mathbf{C}=\mathbf{D}\), donde \(\mathbf{D}\) es la matriz diagonal de los valores propios de la matriz \(\mathbf{A}^\top\mathbf{A}\).
Entonces si \(D=\begin{bmatrix}d_{11}&0&\ldots&0 \\0&d_{22}&\ldots&0 \\\vdots&\vdots&\ddots&\vdots \\0&\ldots&0&d_{nn} \\\end{bmatrix},\) usando la proposición anterior, \[\|\mathbf{A}\|_2=\max_{i=1,\ldots,n}\sqrt{|d_{ii}|}.\]
Seguidamente, procedemos a la demostración de la proposición:
Demostración
Sea \(\mathbf{A}\in {\cal M}_{n,n}(\mathbb{K})\), con \(\mathbb{K}=\mathbb{R}\) o \(\mathbb{K}=\mathbb{C}\), una matriz cuadrada de \(n\) filas y \(n\) columnas. La norma euclídea de \(\|\mathbf{A}\|_2^2\) vale: \[ \|\mathbf{A}\|_2^2=\max_{\|\mathbf{x}\|_2=1}\|\mathbf{A}\mathbf{x}\|_2^2. \] Seguidamente, usando que la matriz \(\mathbf{A}^\top \mathbf{A}\) es diagonalizable con matriz de cambio de base \(\mathbf{C}\) ortogonal, es decir, \(\mathbf{C}^\top\mathbf{A}^\top \mathbf{A}\mathbf{C}=\mathbf{D}\), con \(\mathbf{D}\) matriz diagonal, definimos la aplicación lineal siguiente: \[ \begin{align*} f: \mathbb{K}^n & \longrightarrow \mathbb{K}^n\\ \mathbf{x}:&\longrightarrow f(\mathbf{x})=\mathbf{y}=\mathbf{C}^\top\mathbf{x}. \end{align*} \] La aplicación anterior es invertible, \(x=f^{-1}(y)=\mathbf{C}\mathbf{y}\) y conserva la norma euclídea, es decir, \(\|\mathbf{x}\|_2 =\|f(\mathbf{x})\|_2=\|\mathbf{y}\|_2\) ya que usando el primer lema: \[ \|\mathbf{y}\|_2^2 =\mathbf{y}^\top\mathbf{y}=(\mathbf{C}^\top\mathbf{x})^\top\mathbf{C}^\top\mathbf{x}=\mathbf{x}^\top\mathbf{C}\mathbf{C}^\top\mathbf{x}=\mathbf{x}^\top\mathbf{I}\mathbf{x}=\mathbf{x}^\top\mathbf{x}=\|\mathbf{x}\|_2^2. \]
Demostración (continuación)
Entonces, podemos escribir \(\|\mathbf{A}\|_2^2\) como: \[ \|\mathbf{A}\|_2^2=\max_{\|\mathbf{y}\|_2=1}\|\mathbf{A}\mathbf{C}\mathbf{y}\|_2^2, \] es decir, hacemos el cambio de variable \(\mathbf{y}=\mathbf{C}^\top\mathbf{x}\) o \(\mathbf{x}=\mathbf{C}\mathbf{y}\). Como \(\|\mathbf{x}\|_2=1\), y la matriz \(\mathbf{C}\) es ortogonal, \(\|\mathbf{y}\|_2=\|\mathbf{C}^\top\mathbf{x}\|_2=1\).
Desarrollando la expresión anterior: \[ \|\mathbf{A}\|_2^2=\max_{\|\mathbf{y}\|_2=1}\|\mathbf{A}\mathbf{C}\mathbf{y}\|_2^2=\max_{\|\mathbf{y}\|_2=1} (\mathbf{A}\mathbf{C}\mathbf{y})^\top\mathbf{A}\mathbf{C}\mathbf{y}=\max_{\|\mathbf{y}\|_2=1}\mathbf{y}^\top\mathbf{C}^\top\mathbf{A}^\top\mathbf{A}\mathbf{C}\mathbf{y}. \] A continuación, usando que \(\mathbf{C}^\top\mathbf{A}^\top\mathbf{A}\mathbf{C}=\mathbf{D}\), con \(\mathbf{D}=\mathrm{diag}(d_{11},\ldots,d_{nn})\) la matriz diagonal de los valores propios de \(\mathbf{A}^\top\mathbf{A}\), tenemos: \[ \|\mathbf{A}\|_2^2=\max_{\|\mathbf{y}\|_2=1}\mathbf{y}^\top\mathbf{D}\mathbf{y}=\max_{\|\mathbf{y}\|_2=1}(d_{11}y_1^2+\cdots +d_{nn}y_n^2). \] donde recordemos que los \(d_{ii}\geq 0\) son positivos para \(i=1,2,\ldots,n\).
Demostración (continuación)
Para acabar la demostración, veamos que: \[ \max_{\|\mathbf{y}\|_2=1}(d_{11}y_1^2+\cdots +d_{nn}y_n^2) =\max\{d_{ii},\ i=1,\ldots,n\}. \] En primer lugar tenemos que para cualquier vector \(\mathbf{y}\in\mathbb{K}^n\) con \(\|\mathbf{y}\|_2=1\), \[ \begin{align*} d_{11}y_1^2+\cdots +d_{nn}y_n^2\leq & \max\{d_{ii},\ i=1,\ldots,n\}(y_1^2+\cdots +y_n^2)\\ = & \max\{d_{ii},\ i=1,\ldots,n\}\cdot\|\mathbf{y}\|_2^2 =\max\{d_{ii},\ i=1,\ldots,n\}. \end{align*} \] Por tanto, \[ \max_{\|\mathbf{y}\|_2=1}(d_{11}y_1^2+\cdots +d_{nn}y_n^2)\leq \max\{d_{ii},\ i=1,\ldots,n\}. \]
Demostración (continuación)
Para ver la otra desigualdad, consideremos los vectores siguientes de norma euclídea igual a \(1\): \(\mathbf{y}^{(i)}=(0,\ldots,0,\overbrace{1}^{i)},0\ldots,0)\), es decir, un vector con todas las componentes nulas excepto la \(i\)-ésima que vale \(1\), para \(i=1,2,\ldots,n\).
Para el vector \(\mathbf{y}^{(i)}\), tenemos que: \[ d_{11}{y^{(i)}}_1^2+\cdots +d_{ii}{y^{(i)}}_i^2+\cdots +d_{nn} {y^{(i)}}_n^2 = d_{ii}, \] para \(i=1,2,\ldots,n\).
Por tanto, \[ \max_{\|\mathbf{y}\|_2=1}(d_{11}y_1^2+\cdots +d_{nn}y_n^2)\geq \max\{d_{ii},\ i=1,\ldots,n\}. \] En conclusión: \[ \|\mathbf{A}\|_2^2=\max_{\|\mathbf{y}\|_2=1}(d_{11}y_1^2+\cdots +d_{nn}y_n^2)= \max\{d_{ii},\ i=1,\ldots,n\}=\rho(\mathbf{A}^\top\mathbf{A}), \] tal como queríamos demostrar.
Sea \(\mathbf{A}\in {\cal M}_{n,n}(\mathbb{K})\) con \(\mathbb{K}=\mathbb{R}\) o \(\mathbb{K}=\mathbb{C}\), una matriz cuadrada de \(n\) filas y \(n\) columnas:
\(\mathbf{A}=\begin{bmatrix}a_{11}&a_{12}&\ldots&a_{1n} \\a_{21}&a_{22}&\ldots&a_{2n} \\\vdots&\vdots&\ddots&\vdots \\a_{n1}&a_{n2}&\ldots&a_{nn} \\\end{bmatrix}.\) Entonces: \(\displaystyle\|\mathbf{A}\|_1 =\max_{j=1,\ldots,n}\sum_{i=1}^n |a_{ij}|.\)
Es decir, la norma \(1\) de una matriz \(\mathbf{A}\) es el máximo de la sumas de las columnas en valor absoluto.
Demostración
En primer lugar, como ya hemos hecho antes, consideremos los vectores siguientes de norma \(1\) igual a \(1\): \(\mathbf{x}^{(j)}=(0,\ldots,0,\overbrace{1}^{j)},0\ldots,0)\), es decir, un vector con todas las componentes nulas excepto la \(j\)-ésima que vale \(1\), para \(j=1,2,\ldots,n\).
Para el vector \(\mathbf{x}^{(j)}\), tenemos que: \[ \|\mathbf{A}\mathbf{x}^{(j)}\|_1=\|(a_{1j},a_{2j},\ldots,a_{nj})^\top\|_1 =\sum_{i=1}^n |a_{ij}|, \] para \(j=1,2,\ldots,n\). Por tanto, \[ \|\mathbf{A}\|_1 =\max_{\|\mathbf{x}\|=1}\|\mathbf{A}\mathbf{x}\|_1\geq \max_{j=1,\ldots,n}\sum_{i=1}^n |a_{ij}|. \]
Demostración (continuación)
Para ver la otra desigualdad, hacemos lo siguiente: \[ \begin{align*} \|\mathbf{A}\|_1= & \max_{\|\mathbf{x}\|=1}\|\mathbf{A}\mathbf{x}\|_1 =\max_{\|\mathbf{x}\|=1}\sum_{i=1}^n\left|\sum_{j=1}^n a_{ij}x_j\right|\leq \max_{\|\mathbf{x}\|=1}\sum_{i=1}^n\sum_{j=1}^n |a_{ij}||x_j|= \max_{\|\mathbf{x}\|=1}\sum_{j=1}^n\sum_{i=1}^n |a_{ij}||x_j| \\ = & \max_{\|\mathbf{x}\|=1}\sum_{j=1}^n |x_j|\sum_{i=1}^n |a_{ij}|\leq \max_{\|\mathbf{x}\|=1}\|x\|_1\max_{j=1,\ldots,n}\sum_{i=1}^n |a_{ij}|\leq \max_{j=1,\ldots,n}\sum_{i=1}^n |a_{ij}|, \end{align*} \] tal como queríamos demostrar.
En resumen, \[ \|\mathbf{A}\|_1 = \max_{j=1,\ldots,n}\sum_{i=1}^n |a_{ij}|. \]
Sea \(\mathbf{A}\in {\cal M}_{n,n}(\mathbb{K})\) con \(\mathbb{K}=\mathbb{R}\) o \(\mathbb{K}=\mathbb{C}\), una matriz cuadrada de \(n\) filas y \(n\) columnas: \(\mathbf{A}=\begin{bmatrix}a_{11}&a_{12}&\ldots&a_{1n} \\a_{21}&a_{22}&\ldots&a_{2n} \\\vdots&\vdots&\ddots&\vdots \\a_{n1}&a_{n2}&\ldots&a_{nn} \\\end{bmatrix}.\) Entonces: \(\displaystyle\|\mathbf{A}\|_\infty =\max_{i=1,\ldots,n}\sum_{j=1}^n |a_{ij}|.\)
Es decir, la norma infinito de una matriz \(\mathbf{A}\) es el máximo de la sumas de las filas en valor absoluto.
Demostración
En primer lugar, consideremos los vectores siguientes de norma infinito igual a \(1\): \(\mathbf{x}^{(i)}=(\pm 1,\pm 1,\ldots,\pm 1)\) de tal forma que la componente \(j\)-ésima del vector anterior \(\mathbf{x}^{(i)}\) vale \(1\) si \(a_{ij}\geq 0\) y vale \(-1\), si \(a_{ij}<0\). Entonces la componente \(i\)-ésima del vector \(\mathbf{A}\mathbf{x}\) vale: \[ \left(\mathbf{A}\mathbf{x}\right)_i = \sum_{j=1}^n a_{ij}x_j=\sum_{j=1}^n |a_{ij}|. \] Entonces: \(\displaystyle\|\mathbf{A}\mathbf{x}\|_\infty \geq \sum_{j=1}^n |a_{ij}|\), para \(i=1,2,\ldots, n\). En conclusión: \[ \|\mathbf{A}\mathbf{x}\|_\infty \geq \max_{i=1,\ldots,n}\sum_{j=1}^n |a_{ij}|. \]
Demostración (continuación)
Para ver la otra desigualdad, hacemos lo siguiente: \[ \begin{align*} \|\mathbf{A}\|_\infty= & \max_{\|\mathbf{x}\|=1}\|\mathbf{A}\mathbf{x}\|_\infty =\max_{\|\mathbf{x}\|=1}\max_{i=1,\ldots,n}\left|\sum_{j=1}^n a_{ij}x_j\right|\leq \max_{\|\mathbf{x}\|=1}\max_{i=1,\ldots,n}\sum_{j=1}^n |a_{ij}||x_j|\\ \leq & \max_{\|\mathbf{x}\|=1}\max_{i=1,\ldots,n}\sum_{i=1}^n |a_{ij}| = \max_{i=1,\ldots,n}\sum_{j=1}^n |a_{ij}|, \end{align*} \] tal como queríamos demostrar. En el último razonamiento hemos usado que \(\displaystyle |x_j|\leq \max_{i=1,\ldots,n} |x_i|=\|\mathbf{x}\|_\infty=1\), para \(j=1,2,\ldots,n\).
En resumen, \[ \|\mathbf{A}\|_\infty = \max_{i=1,\ldots,n}\sum_{j=1}^n |a_{ij}|. \]
Volvamos a considerar la matriz \(\mathbf{A}=\begin{bmatrix}7&4&3 \\5&5&9 \\3&7&7 \\\end{bmatrix}.\)
Calculemos \(\|\mathbf{A}\|_2\), \(\|\mathbf{A}\|_1\) y \(\|\mathbf{A}\|_\infty\).
\(\|\mathbf{A}\|_1\): \[ \|\mathbf{A}\|_1 =\max\{7+5+3,4+5+7,3+9+7\}=\max\{15, 16, 19\}=19. \]
\(\|\mathbf{A}\|_\infty\): \[ \|\mathbf{A}\|_\infty =\max\{7+4+3,5+5+9,3+7+7\}=\max\{14, 19, 17\}=19. \]
En este caso, observamos que \(\|\mathbf{A}\|_1=\|\mathbf{A}\|_\infty\), pero en general no tiene porqué pasar.
Sea una matriz \(\mathbf{A}\in {\cal M}_{n,n}(\mathbb{K})\) con \(\mathbb{K}=\mathbb{R}\) o \(\mathbb{K}=\mathbb{C}\). Entonces el radio espectral de \(\mathbf{A}\) es menor que cualquier norma matricial: \[\rho(\mathbf{A})\leq \|\mathbf{A}\|.\]
Desigualdad contraria. Dada una matriz \(\mathbf{A}\in {\cal M}_{n,n}(\mathbb{K})\) con \(\mathbb{K}=\mathbb{R}\) o \(\mathbb{K}=\mathbb{C}\). Entonces, para cualquier valor \(\epsilon >0\), existe una normal matricial tal que la norma de la matriz es menor que el radio espectral de dicha matriz más \(\epsilon\): \[\|\mathbf{A}\|\leq \rho(\mathbf{A})+\epsilon .\]