鄭州公共住宅建設(shè)投資有限公司網(wǎng)站一站式媒體發(fā)稿平臺(tái)
目錄
機(jī)器學(xué)習(xí)術(shù)語?
標(biāo)簽
特性
示例
模型
回歸與分類
深入了解機(jī)器學(xué)習(xí):線性回歸?
深入了解機(jī)器學(xué)習(xí):訓(xùn)練和損失?
平方損失函數(shù):一種常用的損失函數(shù)
機(jī)器學(xué)習(xí)術(shù)語?
預(yù)計(jì)用時(shí):8 分鐘
什么是(監(jiān)督式)機(jī)器學(xué)習(xí)?簡而言之,如下所示:
- 機(jī)器學(xué)習(xí)系統(tǒng)學(xué)習(xí)如何組合輸入以對(duì)從未見過的數(shù)據(jù)生成有用的預(yù)測(cè)。
我們來探索一下機(jī)器學(xué)習(xí)的基本術(shù)語。
標(biāo)簽
標(biāo)簽是指我們要預(yù)測(cè)的內(nèi)容,即簡單線性回歸中的?y
?變量。標(biāo)簽可以是小麥的未來價(jià)格、圖片中顯示的動(dòng)物類型、音頻剪輯的含義,也可以是其他任何信息。
特性
特征是輸入變量,即簡單線性回歸中的?x
?變量。一個(gè)簡單的機(jī)器學(xué)習(xí)項(xiàng)目可能會(huì)使用單個(gè)功能,而更復(fù)雜的機(jī)器學(xué)習(xí)項(xiàng)目可以使用數(shù)百萬個(gè)功能,如下所示:
在垃圾郵件檢測(cè)器示例中,這些功能可能包括:
- 電子郵件文字中的字詞
- 發(fā)件人的地址
- 發(fā)送電子郵件的時(shí)間
- 電子郵件中包含詞組“一種奇怪的技巧”。
示例
樣本是指數(shù)據(jù)的特定實(shí)例:x。(我們將?x?顯示為粗體,表示它是一個(gè)矢量。)我們將示例分為兩類:
- 有標(biāo)簽樣本
- 無標(biāo)簽樣本
有標(biāo)簽樣本同時(shí)包含特征和標(biāo)簽。具體來說:
? labeled examples: {features, label}: (x, y)
使用有標(biāo)簽樣本來訓(xùn)練模型。在我們的垃圾郵件檢測(cè)器示例中,有標(biāo)簽樣本是指用戶明確標(biāo)記為“垃圾郵件”或“不是垃圾郵件”的個(gè)別電子郵件。
例如,下表顯示了從包含加利福尼亞州房價(jià)信息的數(shù)據(jù)集中獲取的 5 個(gè)有標(biāo)簽樣本:
homeMedianAge (功能) | 會(huì)議室總數(shù) (設(shè)施) | 臥室總數(shù) (設(shè)施) | medianHouseValue (標(biāo)簽) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
無標(biāo)簽樣本包含特征,但不包含標(biāo)簽。具體來說:
? unlabeled examples: {features, ?}: (x, ?)
以下是來自同一住房數(shù)據(jù)集的 3 個(gè)無標(biāo)簽樣本(不包括?medianHouseValue
):
homeMedianAge (功能) | 會(huì)議室總數(shù) (設(shè)施) | 臥室總數(shù) (設(shè)施) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
使用有標(biāo)簽樣本訓(xùn)練模型后,我們便會(huì)使用該模型來預(yù)測(cè)無標(biāo)簽樣本的標(biāo)簽。在垃圾郵件檢測(cè)器中,無標(biāo)簽樣本是用戶尚未添加標(biāo)簽的新電子郵件。
模型
模型定義了特征和標(biāo)簽之間的關(guān)系。例如,垃圾內(nèi)容檢測(cè)模型可能會(huì)將某些功能與“垃圾內(nèi)容”緊密關(guān)聯(lián)。我們重點(diǎn)介紹模型生命周期的兩個(gè)階段:
-
訓(xùn)練是指創(chuàng)建或學(xué)習(xí)模型。也就是說,您向模型展示有標(biāo)簽樣本,讓模型逐漸學(xué)習(xí)特征與標(biāo)簽之間的關(guān)系。
-
推斷表示將經(jīng)過訓(xùn)練的模型應(yīng)用于無標(biāo)簽樣本。也就是說,使用經(jīng)過訓(xùn)練的模型做出有用的預(yù)測(cè) (
y'
)。例如,在推理期間,您可以針對(duì)新的無標(biāo)簽樣本預(yù)測(cè)?medianHouseValue
。
回歸與分類
回歸模型可預(yù)測(cè)連續(xù)值。例如,回歸模型做出的預(yù)測(cè)可回答如下問題:
-
加利福尼亞州一棟房子的價(jià)值是多少?
-
用戶點(diǎn)擊此廣告的可能性有多大?
分類模型可預(yù)測(cè)離散值。例如,分類模型做出的預(yù)測(cè)可回答如下問題:
-
指定的電子郵件是垃圾郵件還是非垃圾郵件?
-
這是狗、貓還是倉鼠的圖片?
關(guān)鍵術(shù)語
|
|
|
|
|
|
|
|
?
深入了解機(jī)器學(xué)習(xí):線性回歸?
預(yù)計(jì)用時(shí):6 分鐘
長久以來,人們都知道板球(昆蟲物種)在天氣炎熱的日子里會(huì)比在更冷的日子里鳴叫。數(shù)十年來,專業(yè)和業(yè)余科學(xué)家一直在編制每分鐘的鳴叫聲和溫度方面的數(shù)據(jù)。Ruth 大姨媽給您送上生日祝福,送上一份生日禮物,邀請(qǐng)您學(xué)習(xí)一個(gè)模型來預(yù)測(cè)這種關(guān)系。 您想利用這些數(shù)據(jù)來探索這種關(guān)系。
首先,通過繪制數(shù)據(jù)的方式檢查數(shù)據(jù):
?
圖 1. 每分鐘的鳴叫聲與溫度(以攝氏度為單位)。
如您所料,該圖表顯示了溫度隨著鳴叫聲次數(shù)的增加而上升。 鳴叫聲與溫度之間的關(guān)系是線性關(guān)系嗎?可以,您可以繪制一條直線來大致說明這種關(guān)系:
圖 2. 一種線性關(guān)系。
關(guān)鍵術(shù)語
|
|
|
|
深入了解機(jī)器學(xué)習(xí):訓(xùn)練和損失?
?
預(yù)計(jì)用時(shí):6 分鐘
訓(xùn)練模型只需從有標(biāo)簽樣本中學(xué)習(xí)(確定)所有權(quán)重和偏差的理想值。在監(jiān)督式學(xué)習(xí)中,機(jī)器學(xué)習(xí)算法通過檢查許多示例并嘗試找到將損失降至最低的模型來構(gòu)建模型;此過程稱為經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。
損失是錯(cuò)誤預(yù)測(cè)的懲罰。也就是說,損失是一個(gè)表示模型在單個(gè)樣本上的預(yù)測(cè)質(zhì)量的數(shù)字。如果模型的預(yù)測(cè)完全準(zhǔn)確,則損失為零,否則損失會(huì)更大。訓(xùn)練模型的目的是從所有樣本中找到一組平均損失“較小”的權(quán)重和偏差。例如,圖 3 左側(cè)顯示的是高損失模型,右側(cè)顯示的是低損失模型。對(duì)于該圖,請(qǐng)注意以下幾點(diǎn):
- 箭頭表示損失。
- 藍(lán)線表示預(yù)測(cè)。
?
圖 3. 左側(cè)模型中的損失較高;右側(cè)模型中的損失較低。
請(qǐng)注意,左側(cè)曲線圖中的箭頭比右側(cè)曲線圖中的箭頭長得多。顯然,相較于左側(cè)曲線圖中的線條,右側(cè)曲線圖中的預(yù)測(cè)模型要好得多。
您可能想知道是否可以創(chuàng)建數(shù)學(xué)函數(shù)(損失函數(shù)),以有意義的方式匯總各個(gè)損失。
平方損失函數(shù):一種常用的損失函數(shù)
我們?cè)诖颂接懙木€性回歸模型使用一種稱為平方損失函數(shù)(也稱為?L2?損失)的損失函數(shù)。單個(gè)樣本的平方損失如下:
= the square of the difference between the label and the prediction= (observation - prediction(x))2= (y - y')2
關(guān)鍵術(shù)語
|
|
|
|
|
?
https://developers.google.com/machine-learning/crash-course/ml-intro?hl=zh-cn?