我們可以將輸出繪制成輸入的函數圖像。下面的線只是一個常規的非隨機函數,即weight=g(height)或y=g(x)。
在本節中,我們使用符號g(x)表示一個非隨機函數,而使用f(x)表示一個隨機函數。
為了更輕松地生成訓練數據,我們將切換到一個新模型y=sin(x)。我們使用這個方程生成2個訓練數據點(下面的2個藍點)來構建一個高斯模型。然后從中采樣三次,如下面的三條實線所示。
我們看到,這2個訓練數據點強制在藍點相交。如果我們持續采樣,我們將開始直觀地識別每個的的平均值和范圍。例如,下面的紅點和藍線估計了=?3.8時的均值和方差。由于介于2個訓練點之間,因此估計具有相對較高的不確定性(由σ表示)。
在下面的圖中,我們有5個訓練數據,并從中采樣30條線。紅色虛線表示的均值輸出值,灰色區域是離不超過2的范圍。
如前所述,每條線都像一個函數,將輸入映射到輸出:y=g(x)。我們從許多可能的函數g開始,但是訓練數據集會降低或增加某些函數的可能性。從技術上講,模擬了給定訓練數據集的函數g的可能性分布(上述繪制的線的概率分布)。
高斯過程(GP)的特點是構建高斯模型來描述函數的分布。
我們不會通過采樣來解決這個問題,而是通過分析方法來解決。
回到:
我們可以將表達式推廣為以下形式,其中f是訓練集的標簽(體重),是我們要預測的體重。現在我們需要使用高斯模型來解決p(|f)的問題。
回想一下之前關于多元高斯定理的部分,如果我們有一個模型:
我們可以通過以下方式求:
現在,我們應用這些公式來解決p(|f)的問題:
對于訓練數據集,假設輸出標簽f服從高斯分布:
并且假設的高斯分布為:
其中,L定義為:
然后根據多元高斯定理,我們有:
我們將應用這些公式來模擬采樣自y=sin(x)的訓練數據。在這個例子中,由于sin函數的均值為0,所以μ==0。因此,我們的方程將簡化為:
請注意,矩陣K可能難以求逆。因此,我們首先應用Cholesky分解對K進行分解,然后應用線性代數來解決。
表示使用線性代數方法來求Ax=b方程的解x。
在求之前,我們需要預先計算一些項:
應用和上面的方程:
現在我們有計算和的方程:
代碼
首先,準備訓練數據,并通過sin函數打標簽。訓練數據包含5個數據點(=?4,?3,?2,?1和1)。
Xtrain = np.array([-4, -3, -2, -1, 1]).reshape(5,1)
ytrain = np.sin(Xtrain) # Our output labels.
測試數據:我們創建50個新數據點,在-5和5之間線性分布,由高斯過程進行預測。
# 50 Test data
n = 50
Xtest = np.linspace(-5, 5, n).reshape(-1,1)
在這里,我們定義一個核函數,使用指數平方核度量兩個數據點之間的相似性。
# A kernel function (aka Gaussian) measuring the similarity between a and b. 1 means the same.
def kernel(a, b, param):
sqdist = np.sum(a**2,1).reshape(-1,1) + np.sum(b**2,1) - 2*np.dot(a, b.T)
return np.exp(-.5 * (1/param) * sqdist)
計算核(K,,):
K = kernel(Xtrain, Xtrain, param) # Shape (5, 5)
K_s = kernel(Xtrain, Xtest, param) # Shape (5, 50)
K_ss = kernel(Xtest, Xtest, param) # Kss Shape (50, 50)
我們將使用Cholesky分解對K進行分解,即。
L = np.linalg.cholesky(K + 0.00005*np.eye(len(Xtrain))) # Shape (5, 5)
計算我們的預測的輸出均值。由于我們假設μ?=μ=0,因此該方程變為:
L = np.linalg.cholesky(K + 0.00005*np.eye(len(Xtrain))) # Add some nose to make the solution stable
# Shape (5, 5)
# Compute the mean at our test points.
Lk = np.linalg.solve(L, K_s) # Shape (5, 50)
mu = np.dot(Lk.T, np.linalg.solve(L, ytrain)).reshape((n,)) # Shape (50, )
計算 σ
# Compute the standard deviation.
s2 = np.diag(K_ss) - np.sum(Lk**2, axis=0) # Shape (50, )
stdv = np.sqrt(s2) # Shape (50, )
采樣以便我們可以繪制它的圖像。
使用μ和L作為方差來對其進行采樣:
L = np.linalg.cholesky(K_ss + 1e-6*np.eye(n) - np.dot(Lk.T, Lk)) # Shape (50, 50)
f_post = mu.reshape(-1,1) + np.dot(L, np.random.normal(size=(n,5))) # Shape (50, 3)
我們采樣了3個可能的輸出,分別用橙色、藍色和綠色線表示。灰色區域是離μ不超過2σ的范圍。藍點是我們的訓練數據集。在藍點處,σ更接近于0。對于訓練數據點之間的點,σ增加反映了它的不確定性,因為它不接近訓練數據點。當我們移動到x=1之外時,就沒有更多的訓練數據了,并且導致σ變大。
這是另一個在觀察5個數據點后的后驗概率圖。藍點是我們的訓練數據點,灰色區域展示了預測的不確定性(方差)。
高斯混合模型
高斯混合模型是一種概率模型,它假設所有數據點都來自于高斯分布的混合物。
對于K=2,我們將有兩個高斯分布G1=(μ1,σ21)和G2=(μ2,σ22)。我們從隨機初始化參數μ和σ開始。高斯混合模型嘗試將訓練數據點適合到G1和G2中,然后重新計算它們的參數。數據點被重新擬合并且參數再次計算。迭代將繼續直到解決方案收斂。
EM算法
使用隨機值初始化G1和G2的參數(μ1,σ21)和(μ2,σ22),并將P(a)=P(b)=0.5。
對于所有的訓練數據點x1,x2,?,計算它屬于a(G1)或b(G2)的概率。
現在,我們重新計算G1和G2的參數:
重新計算先驗概率:
對于多元高斯分布,其概率分布函數為:
-
函數
+關注
關注
3文章
4346瀏覽量
62978 -
機器學習
+關注
關注
66文章
8441瀏覽量
133089 -
gpa
+關注
關注
0文章
7瀏覽量
4707 -
高斯分布
+關注
關注
0文章
6瀏覽量
2766
發布評論請先 登錄
相關推薦
評論