Chapter 19 Learning from Examples

Chapter 19 Learning from Examples

Introduction

  • Agent learning

    alt text

Supervised Learning

  • 監督式學習

    alt text

  • 分類與回歸任務

    alt text

  • Ockham’s razor

    alt text

    • 選擇與Data一致 且最簡單的形式
  • learning problem 是可實現的 如果假說空間存在真實的答案

    alt text

    • 權衡
      • 複雜的假設 可能在訓練資料表現更好 但在未見過的資料效果差
      • 簡單的假設 可能更具有泛用性
  • 使用Bayer’s rule簡化

    alt text

    • 低次多項式: 更泛用 對假設的可信任度高
    • 高次多項式: 可能overfitting 對假設的可信任度低
    • : 對假設的可信任度
  • 另一種權衡

    alt text

    • 假設空間的表達性 vs. 在該空間找到好假設的複雜性

Learning Decision Trees

  • 學習決策樹

    alt text

  • 問題定義

    alt text
    alt text

    • 樹的長相

      alt text

  • 簡化問題

    alt text

    • 優先決定影響力大的項

      alt text

    • type較差 因為他分出來的結果 每一項的正負樣本數量一樣

      alt text

  • 子樹也是決策樹

    alt text

  • 標籤測試 對應於熵的測量

    alt text

    • 一個公平硬幣 相當於1bits的熵

      alt text

    • 公式 以及實際計算的例子

      alt text

    • general form
    • 目標屬性的熵表示在沒有任何額外資訊的情況下,數據集的混亂程度。
    • 當正負例均勻分布時,數據集的不確定性達到最大值,需要 1 bit 的信息來進行完全區分。
  • 如何選出影響力高的標籤

    alt text

    • 計算孩子們的熵總和

      alt text

    • 比較information gain: 越高代表得到的資訊越多 => 把樣本區分的越清楚
  • generalization and overfitting

    alt text

    • 當假設空間變得更大(例如,允許更高次的多項式)時:
      • 模型擬合訓練數據的能力增強。
      • 但模型更容易記住訓練數據中的噪聲,從而導致過擬合。
    • 當輸入特徵(attributes)數量增加時,模型變得更複雜:
      • 更多的特徵可能包含與輸出無關的噪聲。
      • 模型可能會過於依賴某些特徵組合,導致過擬合。
      • 特徵選擇的重要性:
        • 篩選出真正相關的特徵可以減少過擬合。
        • 過多無關特徵會增加假設空間的大小,使模型更容易過擬合。
    • 當訓練數據量增加時:
      • 每個假設需要解釋更多的數據點,模型更難專注於噪聲。
      • 訓練數據的多樣性更高,有助於模型學習到數據的普遍模式,而非特定的樣本特性。
    • 關鍵觀察:
      • 訓練數據量越多,模型越能抵抗過擬合。
      • 增加數據量是緩解過擬合的有效手段,但可能伴隨更高的數據收集成本。
  • 拓展決策樹的應用

    alt text

    • 如果輸入是連續的 => 分段
    • 如果輸出是連續的 => 使用regression tree 而非 decision tree
  • 有廣泛應用 優點是人知道導致輸出的原因

    alt text

Evaluating and Choosing the Best Hypothesis

  • example: independent and identical distributed

    alt text
    alt text

    • 平穩性假設: 訓練數據與測試數據來自於相同的分佈
    • 獨立同分佈(IID)假設:
      • 樣本之間是相互獨立的(independence),即後續樣本的生成不受之前樣本的影響。
      • 所有樣本具有相同的先驗概率分佈(identical distribution),這是機器學習模型訓練的基礎。
    • 透過平穩性假設和 IID 假設,我們可以將數據視為一個隨機樣本集合,這是大多數機器學習理論的基石
    • 能夠更好的適應未來資料
  • error rate

    alt text

    • 低訓練錯誤率≠良好的泛化能力:
      • 模型在訓練數據上的低錯誤率,不能保證其在未見過的測試數據上也有相似表現。
      • 這種現象可能由於過擬合(overfitting)導致,模型過於適應訓練數據中的細節或噪聲,失去泛化能力。
  • k-fold cross-validation

    alt text

    • 也稱之為 leave one out cross validation => LOOCV
  • peeking 偷看

    alt text

    • 當訓練人員 根據測試集的分數來 設置假設的時候 => 測試集的資訊被洩漏出去了
  • validation dataset

    alt text

  • model choosing

    alt text
    alt text

  • loss function

    alt text
    alt text

  • 加入先驗機率

    alt text
    alt text

    • 因為agemt 不知道先驗機率 所以只能取1/N => empirical loss 經驗損失
  • 正規化

    alt text

    • 加入對於方法複雜性的懲罰

Regression and Classification with Linear Models

  • 單變數線性回歸

    alt text
    alt text
    alt text

    • 最小化loss 就是找出對 , 取導後等於0的解
    • 可以直接找到

      alt text

    • 權重空間 2維的 => loss function is convex 所以沒有local minima
  • 離開線性模型

    alt text

    • loss function 沒有解 => using hill climbing
  • 學習率

    alt text
    alt text

    • 實際微分的長相
  • 批次梯度下降

    alt text

  • 機率梯度下降 Stochastic gradient descent

    alt text

  • 多變數線性回歸

    alt text
    alt text

    • 梯度下降 可以找到唯一的最佳解
  • closed answer

    alt text
    alt text
    alt text

  • regularization

    alt text
    L1 regularization 可以產生稀疏模型

  • 設置閾值可以用於分類

    alt text
    alt text

    • hard threshold
  • decision boundary

    alt text

    • 一條線 或是介面可以分出資料的類別
    • 資料如果具備能分類的特性 => linearly seperable

      alt text

    • 更新形式 linear regression的單變數導數形式
    • perceptron learning rule 感知器學習原則

      alt text

    • 三種可能的改變
  • 每次在同一個訓練集更新後的結果

    alt text
    alt text

    • perceptron rule 可能不會收斂到穩定的解 (固定學習率下)
  • Softening the hard threshold function

    alt text
    alt text

    • like sigmoid function

      alt text

    • 輸出介於 0~1之間 可以視為預測結果為類別1的機率
  • logistic regression

    alt text

    • 沒有封閉解
    • 可以使用 gradient descent

      alt text

    • 使用chain rule 推導gradient

      alt text

    • 梯度更新公式

Nonparametric Models

  • parametric vs. nonparametric

    alt text

    • Parametric: 只記錄最終的函數 不包含訓練資料
    • Nonparametric: 還需要訓練資料來幫助預測
  • instance-based learning or memory-based learning

    alt text

    • table lookup
  • KNN

    alt text
    alt text

    • 不同k值的例子

      alt text

    • nonparametric model 也會有overfitting的問題
    • 通常用cross-validation 來找出最佳的參數
  • distance metric

    alt text

    • Minkowski distance
    • Euclidean distance
    • Manhattem distance
    • 對於布林標籤: Hamming distance

      alt text

    • 標準化
    • Mahalanobis distance考慮到不同維之間的關係 (馬哈拉諾比斯距離)
  • 在高維空間下KNN的稀疏性

    alt text
    alt text
    alt text

    • 維度越高 鄰域越接近整個空間的大小

      alt text

    • 維度詛咒
  • K-d tree

    alt text

    • 重覆在特定維度上 把資料分成兩半

      alt text
      alt text

    • 數據量要求 如果數據不夠 效果不如線性掃描好
  • Locality-sensitive hash (LSH)

    alt text

    • 局部敏感哈希

      alt text

    • 能處理最近鄰問題 但仍舊存在高維詛咒

      alt text
      alt text

    • 找出能反映距離的hash function

      alt text
      alt text

    • 作法
      • 用hash table找出相近的候選 再做k-neighbor
  • 折線圖

    alt text

  • 回歸

    alt text
    alt text

    • weight kernal

      alt text

    • locally weighted regression

      alt text

Support Vector Machines

  • SVM

    alt text

    • 現成方法 尤其是在沒有相關領域知識的情況下
    • 最大邊緣分割器
    • 使用 kernal trick的技巧

      alt text

  • 某些樣本更重要 放更多注意力在這上面 可以增加泛化性

    alt text

  • 比起關注經驗損失 更關注預期的泛化損失

    alt text

    • margin: 從 separator 到最近點的距離 這個範圍

      alt text

    • 解方程式(separator) => 最大化margin
  • quadratic programming problem

    alt text
    alt text

    • 轉換後的方程式有幾個好處
      • convex => 有全域最小解

        alt text
        alt text
        alt text

  • 資料如果不能線性分割 => 引入高維空間

    alt text

    • 自己定義函數

      alt text
      alt text

    • 操作方法

      alt text

    • 只要計算kernal function 就好

      alt text

    • 使用這些kernal function => kernal trick
  • 軟邊界向量機

    alt text

    • 允許錯誤分類: 不要求所有點都在正確的分類區域。
    • 懲罰錯誤: 對於那些落在錯誤一側的樣本,其懲罰與將其移回正確區域所需的距離成正比。

Ensemble Learning

  • ensemble

    alt text
    alt text

Ensemble Learning – Bagging

  • 將資料拆成k份 訓練出k個變體

    alt text

Ensemble Learning – Random forests

  • 隨機森林 種出一堆不同的樹

    alt text
    alt text

    • 越多樹 誤差會收斂

Ensemble Learning – Stacking

  • 推疊不同模型的成果到驗證集

    alt text
    alt text

    • 再使用驗證集訓練最終的模型

Ensemble Learning – Boosting

  • boosting

    alt text

    • 權重越高的example 越重要

      alt text

    • 從所有人權重都一樣開始
    • 提高錯誤者的權重 降低正確者的權重 重新訓練變體
    • 將所有變體的結果結合

      alt text

  • Adaboost

    alt text
    alt text

    • 集成弱學習器形成強學習器:
      • AdaBoost 是一種提升演算法 (Boosting Algorithm),透過結合多個弱學習器(例如簡單的決策樹或樸素貝葉斯)來形成一個 強學習器。
      • 強學習器的性能遠高於單個弱學習器。
    • 提高訓練集準確率:
      • 如果給定的弱學習演算法在每次迭代中都能生成準確率略高於隨機猜測的假設,AdaBoost 通過多次疊加這些假設,會逐漸提升整體的分類能力。
      • 理論上,當迭代次數 K 足夠大時,AdaBoost 可以將訓練集的分類錯誤率降到 零,也就是訓練數據可以被完全正確分類。
  • 結果差異

    alt text
    alt text

  • K值差異

    alt text

Ensemble Learning – Online learning

  • 很強的假設 未來的資料很難跟過去訓練的資料完全獨立

    alt text

  • 在線學習

    alt text

  • 隨機加權多數演算法

    alt text

    • 相信專家們的水平與過去表現成正比

      alt text

    • 作法
  • 根據regret變強

    alt text

    • regret: 遺憾 與最佳專家相比 我們犯下的錯誤

      alt text

    • 目標是最小化遺憾

Developing Machine Learning Systems

  • 問題表述

    alt text

  • 資料收集

    alt text

    • 防止異常值
  • 特徵工程

    alt text
    alt text

    • 資料視覺化 用於去除異常值
  • 模型選擇的baseline

    alt text
    alt text

  • 可解釋性 與 可解釋能力

    alt text

    • 可解釋性 (Interpretability)
      • 模型是 可解釋的,表示我們可以直接檢視模型的結構(如權重、規則、分支)並理解它的內部運作。
      • 可解釋性通常與 簡單模型 相關,例如線性回歸或決策樹,因為它們的運算過程是透明且容易理解的。
    • 可解釋性 (Interpretability)
      • 模型是 可解釋的,表示我們可以直接檢視模型的結構(如權重、規則、分支)並理解它的內部運作。
      • 可解釋性通常與 簡單模型 相關,例如線性回歸或決策樹,因為它們的運算過程是透明且容易理解的。

Chapter 19 Learning from Examples
https://z-hwa.github.io/webHome/[object Object]/Introduction to Artificial Intelligence/Chapter-19-Learning-from-Examples/
作者
crown tako
發布於
2024年12月4日
許可協議