Chapter 20 Learning Probabilistic Models
Chapter 20 Learning Probabilistic Models
Statistical Learning
- 糖果的例子   - 問題表述
 
- Bayesian learning   - 預測公式
- 關鍵是過去的假設 以及在該假設下資料的可能性
 
- 計算假設下資料的可能性  
- 條件機率隨著觀察到的數據改變 並轉移假說   
- 特性說明  - 特性描述:- 貝葉斯學習的預測最終會收斂到 真實的假設,即使初始的假設先驗分佈不是完全準確的。
 
- 條件:    - 初始的先驗分佈不能完全排除真實假設。
- 隨著數據量的增加,模型可以逐漸識別出真實假設。
 
- 為什麼這會發生?- 錯誤假設的後驗概率會隨著數據的累積而消失。
 
- 原因是:- 如果某個假設是錯的,那麼它生成「不符合真實分佈特徵的數據」的概率會非常小。
- 當越來越多的數據被觀測到,這些數據越來越傾向於支持真實假設,而非錯誤假設。
 
 
- 特性描述:
- maximum a posteriori (最大化後驗機率)  - 基於一個最可能的假設來預測 
- MAP 比 bayesian 更容易實現- 解決最佳化問題 比大型求和問題簡單
 
 
- 基於一個最可能的假設來預測
- overfitting  - 使用假設的先驗機率 來懲罰假設的複雜性
 
- Maximum-likelihood hypothesis    - 如果假設空間夠均勻
 
Learning with Complete Data
- 複雜資料 - density estimation: 密度估計 就是這種任務的名稱
- 專注於參數學習
 
Maximum-likelihood parameter learning: Discrete models
- 參數說明   - 針對該資料集的可能性
 
- 解ML的公式  - 實際的糖果分佈 跟已經被揭露出來的糖果分佈相同
 
- 模型圖  
- ML的解法說明   - 其他問題 比如說樣本數不夠
 
- 加入糖果包裝紙顏色的問題   - 看起來複雜 取log可以簡化 
- 之後取導 可以變成三個獨立的項 方便計算
 
- 看起來複雜 取log可以簡化
Naive Bayes Models
- 天真的貝氏模型  - 假定每個標籤互相都是條件獨立的
 
- 當類別數量無法觀測 可以用這招   - 與決策樹的比較 
- 主要的缺點是 條件獨立的假設很少是精準的
 
- 與決策樹的比較
Maximum-likelihood parameter learning: Continuous models
- 高斯分佈   - 解公式 找出Maximum likelihood
 
- 線性高斯模型   - 圖像 
- 解其實就是最小化 minimizing the numerator in the exponent of Equation (20.5). 
- 相當於線性回歸 解square error
 
- 圖像
Bayesian parameter learning
- 小數據集造成的問題  - Bayeisan 使用一個假設先驗 根據可能的分佈
- 這段話指出,當數據量不足時,單純依賴最大似然方法可能導致極端結論,而引入先驗知識的貝葉斯方法能更好地解決這一問題。這也反映了貝葉斯方法在參數學習中的核心優勢:結合數據與先驗知識,動態更新模型。
 
- 假設的先驗知識   - 一種beta函數 由兩個超參數決定的 值域介於0~1 
- 微調超參數帶來的差異 
 
- 一種beta函數 由兩個超參數決定的 值域介於0~1
- beta函數是閉運算  
- a,b 就像糖果的虛擬計數   - 對大資料集 bayesian parameter learning 會收斂到 ML leanring
 
Density estimation with nonparametric models
- 能夠從樣本復原模型嗎?  - 非參數密度估計的概念- 什麼是非參數密度估計?
- 非參數密度估計是一種估計概率分佈的方法,不需要事先對分佈的結構或參數化做任何假設。
- 這種方法主要適用於連續數據域,試圖直接從數據中學習概率密度函數 (PDF)。
 
- 為什麼叫非參數?- 傳統的參數化方法,比如高斯分佈,假設數據分佈可以由幾個參數(如均值和標準差)完全描述。
- 非參數方法則不依賴具體的分佈假設,而是使用數據樣本直接估計分佈。
 
 
- 非參數密度估計的概念
- KNN   - 資料 
- 預測結果
 
- 資料
- using kernal function   
Learning with Hidden Variables: The EM Alg.
- 隱藏參數   - 疾病本身不會被觀察到 
- 隱藏參數本身可以簡化網路
 
- 疾病本身不會被觀察到
- 很難計算  - 使用EM (expectation maximization)
 
Unsupervised clustering: Learning mixtures of Gaussians
- 非監督式分群  
- 假設資料由混和分佈的 一個組件生成  - 高斯混合模型的背景- 高斯混合模型是一種用來建模數據分佈的概率模型,它假設數據是由多個不同的高斯分佈(即分量 Gaussians)所組成。
 
- 在這種模型中,我們有:- 多個高斯分佈(每個分佈有自己的均值和標準差)。
- 每個數據點來自某個高斯分佈(但我們不知道是哪一個)。
- 問題的目標是同時估計這些高斯分佈的參數(如均值、方差)和每個數據點的來源分量(即隱變量)。
 
 
- 高斯混合模型的背景
- 對於連續資料 一個自然的混和分佈選擇是高斯分布   - 問題是不知道參數以及標籤
 
- EM  - 假設我們知道參數 並隨機分配資料點
- 每次根據資料點屬於該分佈的機率 去更新資料點的所屬分佈 直到收斂
 
- E-step  
- M-step  
- 解釋  - E-step 相當於計算隱藏的indicator variable
- M-step 更新參數
 
- 比較  
- 兩個特點  - 第一點:學到的模型的對數似然值 (Log Likelihood)- 觀察:最終學到的模型的對數似然值略高於生成數據的原始模型。
- 原因:- 數據是隨機生成的,可能並未完美反映原始模型的真實分佈。
- 因此,學到的模型能夠在特定的數據集上更好地「擬合」數據,導致對數似然值略高於原始模型的理論值。
- 這是一種過擬合的現象,因為模型過度擬合了特定數據集的特徵,而不一定能完美表現原始模型的全域分佈。
 
 
- 第二點:EM 演算法的特性- 對數似然值的單調增加:  - EM 演算法在每次迭代中,都會增加數據的對數似然值。
- 這是因為 EM 保證每次更新後,模型對數似然值都不會降低(數學證明來自於 EM 的兩個步驟:期望步驟 (E-step) 和最大化步驟 (M-step) 的設計)。
 
- 局部最大值:- 在特定條件下,EM 可以證明會達到對數似然的局部最大值。
- 這意味著演算法的最終結果可能依賴於初始參數值,而不一定是全局最大值。
 
- 與梯度上升法的類比:- EM 的行為類似於一種基於梯度的爬山算法 (hill-climbing algorithm),因為它在對數似然的表面上「爬升」到更高的值。
- 但不同的是,EM 不需要「步長參數 (step size)」,因為它通過解析解(最大化步驟)直接找到每次迭代中的最佳更新。
 
 
- 對數似然值的單調增加:  
 
- 第一點:學到的模型的對數似然值 (Log Likelihood)
Learning Bayesian networks with hidden variable
- 問題定義   
- 如果來自不同袋子的糖果被混和放進一個袋子   - 觀察到的樣本
 
- E-step   - 得到  
- 其他參數同理
 
- 得到 
- 變化  - 學習最後階段都會混和其他 gradient-based method (Newton-raphson)
 
- 對於bayesian network 隱藏參數的學習 
 > - 來自於推理的結果 只跟局部後驗機率有關
 
The general form of the EM algorithm
- 廣泛形式    - 各步解釋  
- 用馬可夫鍊蒙地卡羅(MCMC)近似估計 E-step中的後驗機率
 
- 各步解釋
Chapter 20 Learning Probabilistic Models
      https://z-hwa.github.io/webHome/[object Object]/Introduction to Artificial Intelligence/Chapter-20-Learning-Probabilistic-Models/