首頁 > 遊戲

深度學習的數學基礎 2.線性相關、生成子空間、範數、特徵分解

由程式設計圈子發表于遊戲2021-06-12

簡介正交矩陣（orthogonal matrix）指行向量和列向量是分別標準正交的方陣，即：這意味著：五、特徵分解（eigendercomposition）特徵分解是使用最廣的矩陣分解之一，即我們將矩陣分解成一組特徵向量和特徵值

歐幾里得範數

一、一些線性代數概念

1。餘子式

行列式的階越低越容易計算，於是很自然地提出，能否把高階行列式轉換為低階行列式來計算，為此，引入了餘子式和代數餘子式的概念。

在 n 階行列式中，把所在的第i行與第 j 列劃去後，所留下來的 n − 1 階行列式叫元的餘子式。

數學表示上計作

1。1。1 行列式餘子式

餘子式定義

行列式等於它任意一行（列）的各元素與其對應的代數式餘子式乘積之和。

1。1。2 矩陣餘子式

設 A 為一個 m×n 的矩陣，k為一個介於1和 m 之間的整數，並且 m ≤ n。 A的一個 k階子式是在A中選取 k 行 k列之後所產生的 k 個交點組成的方塊矩陣的行列式。

A的一個 k階餘子式是 A去掉了m−k行與 n−k列之後得到的 k×k矩陣的行列式。

由於一共有k種方法來選擇該保留的行，有k種方法來選擇該保留的列，因此A的k階餘子式一共有

個。

如果 m = n ，那麼 A 關於一個 k階子式的餘子式，是 A去掉了這個 k階子式所在的行與列之後得到的（n-k）×（n-k）矩陣的行列式，簡稱為 A的 k 階餘子式。

2。秩

秩是線性代數術語，線上性代數中，一個矩陣A的列秩是 A的線性無關的縱列的極大數目。類似地，行秩是 A的線性無關的橫行的極大數目。

方陣的列秩和行秩總是相等的，因此它們可以簡單地稱作矩陣 A的秩。通常表示為 rk（A）或 rank A。

二、線性組合（linear combination）

s變數是對變數x的加權線性”混合”。因此，將s定義為變數的線性組合。

可以將線性組合的概念推廣到向量中。定義每個

是一個向量，因此，它們的線性組合s也是一個向量。當然．每個向量必須有相同數量的元素。請注意，s的每個分量都是一個由被組合向量的相對應元素構成的線性組合。

1。標量的線性組合

形式上，一組向量的線性組合，是指每個向量乘以對應標量係數之後的和，即：

定義標量為2，4，1，5，權重為0。1，0。4，0。25，0。25。求其線性組合s。

解：線性組合

2。向量的線性組合

3。生成子空間

一組向量的生成子空間（span）是原始向量線性組合後所能抵達的點的集合。

確定 A x = b 是否有解，相當於確定向量b 是否在 A 列向量的生成子空間中。這個特殊的生成子空間被稱為 A 的列空間（column space）或者 A的值域（range）。

4。線性相關

線上性代數里，向量空間的一組元素中，若沒有向量可用有限個其他向量的線性組合所表示，則稱為線性無關或線性獨立（linearly independent），反之稱為線性相關（linearly dependent）。

例如在三維歐幾里得空間R的三個向量（1， 0， 0），（0， 1， 0）和（0， 0， 1）線性無關；但（2， −1， 1），（1， 0， 1）和（3， −1， 2）線性相關，因為第三個是前兩個的和。

5。方陣（square）

m=n的矩陣

方陣的左逆和右逆是相等的。

6。奇異的方陣（singular）

奇異矩陣是線性代數的概念，就是該矩陣的秩不是滿秩。首先，看這個矩陣是不是方陣（即行數和列數相等的矩陣。若行數和列數不相等，那就談不上奇異矩陣和非奇異矩陣）。

然後，再看此矩陣的行列式|A|是否等於0，若等於0，稱矩陣A為奇異矩陣；若不等於0，稱矩陣A為非奇異矩陣。同時，由|A|≠0可知矩陣A可逆，這樣可以得出另外一個重要結論：

可逆矩陣就是非奇異矩陣

非奇異矩陣也是可逆矩陣

如果A為奇異矩陣，則 A X = 0 AX=0 AX=0有無窮解， A X = b AX=b AX=b有無窮解或者無解。

如果A為非奇異矩陣，則 A X = 0 AX=0 AX=0有且只有唯一零解， A X = b AX=b AX=b有唯一解。

三、範數

有時我們需要衡量一個向量的大小。在機器學習中，我們經常使用稱為**範數（norm）**的函式來衡量向量大小。形式上， L p L^p Lp範數定義為：

其中 p ∈ R p ≥ 1 。

範數（包括 L^p 範數），是將向量對映到非負值的函式。直觀上來說，向量x的範數衡量從原點到點x的距離。更嚴格地說，範數是滿足下列性質的任意函式：

即要滿足：

非負性

齊次性

三角不等式

當 p=2時， L^2 範數稱為歐幾里得範數（ Euclidean norm）。它表示從原點出發到向量x確定的點的歐幾里得距離。 L^2 範數在機器學習中出現得十分頻繁，經常簡化表示為 ||x||，略去了下標2。平方 L^2 範數也經常用來衡量向量的大小，可以簡單地透過點積 x^Tx 計算。

最大範數

表示向量中具有最大幅值的元素的絕對值。

Python numpy計算範數

import numpy as npa=np。array（［［complex（1，-1），3］，［2，complex（1，1）］］） print（a）print（“矩陣2的範數”）print（np。linalg。norm（a，ord=2）） #計算矩陣2的範數print（“矩陣1的範數”）print（np。linalg。norm（a，ord=1）） #計算矩陣1的範數print（“最大範數”）print（np。linalg。norm（a，ord=np。inf））

四、特殊的矩陣和向量

1。對角矩陣（diagonal matrix）

只在主對角線上含有非零元素，其它位置都是0。

對角線上元素全為1的對角矩陣稱為單位矩陣。

2。對稱矩陣（symmetric）

轉置和自己相等的矩陣，即

3。單位向量（unit vector）

具有**單位範數（unit norm）的向量，即：

如果 X^Ty=0 ，那麼向量 x 和向量 y 互相正交。如果兩個向量都有非零範數，那麼這兩個向量之間的夾角是

90度。在R^n 中，至多有n個範數非零向量互相正交。如果這些向量不但互相正交，則且範數都為1，那麼我們稱它們是標準正交（orthonormal）。

4。正交矩陣（orthogonal matrix）

指行向量和列向量是分別標準正交的方陣，即：

這意味著：

五、特徵分解（eigendercomposition）

特徵分解是使用最廣的矩陣分解之一，即我們將矩陣分解成一組特徵向量和特徵值。

方陣A的特徵向量（eigenvector）是指與A相乘後相當於對該向量進行縮放的非零向量 v v v：

其中 λ \lambda λ 稱為這個特徵向量對應的特徵值（eigenvalue）。（類似地，我們也可以定義左特徵向量（left eigenvector）：

但是通常我們更關注右特徵向量（right eigenvector））。

如果 v 是 A 的特徵向量，那麼任何縮放後的向量

也是 A的特徵向量。此外，sv和v有相同的特徵值。基於這個原因，通常我們只考慮單位特徵向量。

假設矩陣 A 有n個線性無關的特徵向量

，對應著特徵值

。我們將特徵向量連線成一個矩陣，使得每一列是一個特徵向量：

。類似地，我們也可以將特徵值連線成一個向量

。因此 A的特徵分解（eigendecomposition）可以記作：

我們常常希望將矩陣分解（decompose）成特徵值和特徵向量。這樣可以幫助我們分析矩陣的特定性質，就像質因數分解有助於我們理解整數。

不是每一個矩陣都可以分解成特徵值和特徵向量。在某些情況下，特徵分解存在，但是會涉及複數而非實數。深度學習中通常只需要分解一類有簡單分解的矩陣。具體來講，每個實對稱矩陣都可以分解成實特徵向量和實特徵值：

其中Q是A的特徵向量組成的正交矩陣， ∧是對角矩陣。特徵值

對應的特徵向量是矩陣Q的第i列，記作

。因為Q是正交矩陣，我們可以將A看作沿方向 v^{（i）}延展 λ_i倍的空間。

雖然任意一個實對稱矩陣A都有特徵分解，但是特徵分解可能並不唯一。如果兩個或多個特徵向量擁有相同的特徵值，那麼在由這些特徵向量產生的生成子空間中，任意一組正交向量都是該特徵值對應的特徵向量。因此，我們可以等價地從這些特徵向量中構成Q作為替代。按照慣例，我們通常按降序排列 ∧的元素，在該約定下，特徵分解唯一，當且僅當所有的特徵值都是唯一的。

矩陣的特徵分解給了我們很多關於矩陣的有用資訊。矩陣是奇異的，當且僅當含有零特徵值。實對稱的特徵分解也可以用於最佳化二次方程

，其中限制||x||2=1。

當x等於A的某個特徵向量時，f將返回對應的特徵值。在限制條件下，函式f的最大值是最大特徵值，最小值是最小特徵值。

所有特徵值是正數的矩陣稱為正定（positive definite），所有特徵值都是非負數的矩陣稱為半正定（positive semidefiite）。同樣地，所有特徵值都是負數的矩陣稱為負定（negative definite）；所有特徵值都是非正數的矩陣稱為半負定（pegative semidefinite）。半正定矩陣受到關注是因為它們保證