第1章緒 論有時(shí)整個(gè)數(shù)據(jù)集亦稱一個(gè)“樣本”,因?yàn)樗煽醋鲗?duì)樣本空間的一個(gè)采樣:
通過上下文可判斷出“樣本”是指單個(gè)示例還是數(shù)據(jù)集.訓(xùn)練樣本亦稱“訓(xùn)練示例”(training instance)或“訓(xùn)練例”,學(xué)習(xí)算法通常有參數(shù)需設(shè)置,使用不同的參數(shù)值和(或)訓(xùn)練數(shù)據(jù),將產(chǎn)生不同的結(jié)果,將“l(fā)a bel”譯為“標(biāo)記”而非“標(biāo)簽”,是考慮到英文中“l(fā)abel”既可用作名詞、也可用作動(dòng)詞.1.2基本術(shù)語(yǔ)要進(jìn)行機(jī)器學(xué)習(xí),先要有數(shù)據(jù).假定我們收集了一批關(guān)于西瓜的數(shù)據(jù),例如(色澤=青綠;根蒂=蜷縮;敲聲=濁響),(色澤=烏黑;根蒂=稍蜷;敲聲:沉悶),(色澤=淺白;根蒂=硬挺;敲聲=清脆),……,每對(duì)括號(hào)內(nèi)是一條記錄,“=”意思是“取值為”,這組記錄的集合稱為一個(gè)“數(shù)據(jù)集”(data set),其中每條記錄是關(guān)于一個(gè)事件或?qū)ο螅ㄟ@里是一個(gè)西瓜)的描述,稱為一個(gè)“示例”(instance)或“樣本”(sample).反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項(xiàng),例如“色澤”“根蒂”“敲聲”,稱為“屬性”(attribute)或“特征”(feature);屬性上的取值,例如“青綠”“烏黑”,稱為“屬性值”(attribute value).屬性張成的空間稱為“屬性空間”(attribute space)、“樣本空間”(sample space)或“輸入空間”,例如我們把“色澤”“根蒂”“敲聲”作為三個(gè)坐標(biāo)軸,則它們張成一個(gè)用于描述西瓜的三維空間,每個(gè)西瓜都可在這個(gè)空間中找到自己的坐標(biāo)位置,由于空間中的每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)坐標(biāo)向量,因此我們也把一個(gè)示例稱為一個(gè)“特征向量”(feature vector).