1.3假設空間
歸納(induction)與演繹(deduction)是科學推理的兩大基本手段.前者是從特殊到一般的“泛化”(generalization)過程,即從具體的事實歸結出一般性規律;后者則是從一般到特殊的“特化”(specialization)過程,即從基礎原理推演出具體狀況.例如,在數學公理系統中,基于一組公理和推理規則推導出與之相洽的定理,這是演繹;而“從樣例中學習”顯然是一個歸納的過程,因此亦稱“歸納學習”(inductive learning).
歸納學習有狹義與廣義之分,廣義的歸納學習大體相當于從樣例中學習,而狹義的歸納學習則要求從訓練數據中學得概念(concept),因此亦稱為“概念學習”或“概念形成”,概念學習技術目前研究、應用都比較少,因為要學得泛化性能好且語義明確的概念實在太困難了,現實常用的技術大多是產生“黑箱”模型.然而,對概念學習有所了解,有助于理解機器學習的一些基礎思想,概念學習中最基本的是布爾概念學習,即對“是”“不是”這樣的可表示為0/1布爾值的目標概念的學習,舉一個簡單的例子,假定我們獲得了這樣一個訓練數據集: 這里要學習的目標是“好瓜”,暫且假設“好瓜”可由“色澤”“根蒂”
“敲聲”這三個因素完全確定,換言之,只要某個瓜的這三個屬性取值明確了,我們就能判斷出它是不是好瓜.于是,我們學得的將是,好瓜是某種色澤、某種根蒂、某種敲聲的瓜”這樣的概念,用布爾表達式寫出來則是“好瓜Hf色更一般的情況是考慮霽 澤=?)^(根蒂=?)^(敲聲:?)”,這里“?”表示尚未確定的取值,而我們的任如(A^B)V(G^D)的才J合范式 務就是通過對表1.1的訓練集進行學習,把“?”確定下來.讀者可能馬上發現,表1.1第一行:“(色澤=青綠)^(根蒂:蜷縮)八(敲聲=濁響)”不就是好瓜嗎?是的,但這是一個已見過的瓜,別忘了我們學習的目的是“泛化”,即通過對訓練集中瓜的學習以獲得對沒見過的瓜進行判斷的能力.如果僅僅把訓練集中的瓜“記住”,今后再見到一模一樣的瓜當然可判斷,但是,對沒見過的瓜,例如“(色澤=淺白)八(根蒂=蜷縮)八(敲聲=濁響)”