在一部電影中,一些記者對(duì)機(jī)器人視而不見(jiàn),就像它們被某種病毒殺死了我們所有人一樣。但是,事實(shí)與我們所展示的相反。長(zhǎng)期以來(lái),機(jī)器人一直在協(xié)助我們進(jìn)行工業(yè)升級(jí)。在過(guò)去的幾年中,整個(gè)機(jī)器人技術(shù)行業(yè)都在迅速發(fā)展。在全球機(jī)器人市場(chǎng)以26%的年復(fù)合增長(zhǎng)率增長(zhǎng),到2025年達(dá)到這樣的$器210十億的收入,你能明白,為什么我是說(shuō),機(jī)器人是沒(méi)有那么糟糕,他們可以盈利呢。這里的基本思想是機(jī)器人可以為您提供幫助,我們將討論一種提高機(jī)器人效率的方法。
強(qiáng)化學(xué)習(xí):
機(jī)器學(xué)習(xí)是AI的一部分,它使用算法來(lái)訓(xùn)練機(jī)器以匯總,分析和預(yù)測(cè)數(shù)據(jù)模式。人工智能范式中使用了三種類型的算法學(xué)習(xí)方法。他們是。
1. 監(jiān)督學(xué)習(xí)
2. 無(wú)監(jiān)督學(xué)習(xí)
3. 強(qiáng)化學(xué)習(xí)
監(jiān)督學(xué)習(xí)是用數(shù)據(jù)模式指導(dǎo)機(jī)器的一種人工方式。無(wú)監(jiān)督學(xué)習(xí)探索自我學(xué)習(xí),并允許機(jī)器自行學(xué)習(xí)。強(qiáng)化學(xué)習(xí)就像放置一臺(tái)機(jī)器來(lái)玩人生游戲。他們受過(guò)訓(xùn)練以在特定環(huán)境中行動(dòng),并具有處理這些情況的先決條件。
讓我們以自動(dòng)駕駛卡車為例。無(wú)人駕駛汽車需要預(yù)測(cè)周圍的交通方式,不同草皮上的適當(dāng)速度以及交付目的地。所有這些在紙面上看起來(lái)都很容易,但是如果汽車跳過(guò)車道并駛向自動(dòng)駕駛卡車,那就是強(qiáng)化學(xué)習(xí)可以幫助機(jī)器進(jìn)行訓(xùn)練的時(shí)候。
機(jī)器人中的連續(xù)混合控制:
機(jī)器人使用抓爪和其他端點(diǎn)工具執(zhí)行不同的任務(wù)。在機(jī)器人技術(shù)中,有兩種機(jī)器人動(dòng)作。
· 連續(xù)動(dòng)作-模擬輸出,扭矩或速度
· 離散動(dòng)作-控制模式,齒輪切換或離散閥。
機(jī)器人執(zhí)行的動(dòng)作由伺服電機(jī)提供動(dòng)力。兩種最流行的伺服電機(jī)類型為有刷和無(wú)刷。機(jī)器人中的所有控件,無(wú)論是在工業(yè)上焊接鋼板還是在噴涂下一輛跑車,都可以通過(guò)具有AI功能的模塊進(jìn)行編程。
混合控件合并了連續(xù)和離散動(dòng)作,以實(shí)現(xiàn)機(jī)器人的最佳端點(diǎn)功能。使用相同的強(qiáng)化學(xué)習(xí)算法模型,可以在工業(yè)過(guò)程中更可靠地在動(dòng)作的連續(xù)和離散之間進(jìn)行選擇。
混合MPO:
在這里,我們將考慮在馬爾可夫決策過(guò)程或MDP中使用混合代理進(jìn)行強(qiáng)化學(xué)習(xí)。整個(gè)RL模型基于最大后驗(yàn)策略優(yōu)化(MPO)。它不同于強(qiáng)化學(xué)習(xí)算法的常規(guī)公式,后者的目的是找到可以使結(jié)果最大化的軌跡。
當(dāng)MPO探索范例時(shí),會(huì)使用推理公式。他們首先在軌跡上分布數(shù)據(jù)并創(chuàng)建相關(guān)的結(jié)果。然后,估計(jì)與結(jié)果一致的軌跡上的最佳分布。
如果您是“感興趣的人”電視連續(xù)劇的迷,您將很容易理解。還記得該系列中的AI機(jī)器預(yù)測(cè)最終實(shí)現(xiàn)相同結(jié)果的千種方法的那一集嗎?在這里,混合MPO的RL模型在類似的框架上工作。
用于連續(xù)混合控制的混合MPO的執(zhí)行:
每個(gè)機(jī)器人動(dòng)作,無(wú)論是連續(xù)動(dòng)作還是離散動(dòng)作,都通過(guò)用機(jī)器語(yǔ)言編寫的程序來(lái)控制,該程序通過(guò)機(jī)器人系統(tǒng)中的處理器進(jìn)行解釋,該處理器通過(guò)伺服電機(jī)將代碼轉(zhuǎn)換為機(jī)械能。
在這里,可通過(guò)API或應(yīng)用程序編程接口訪問(wèn)編程數(shù)據(jù)。它是一組協(xié)議,指示跨不同平臺(tái)的數(shù)據(jù)訪問(wèn),授權(quán)和驗(yàn)證。但是,在RL模型通過(guò)API或機(jī)器人接口提供命令程序之前,需要執(zhí)行混合策略。
混合策略集成了連續(xù)和離散操作,以創(chuàng)建異步混合控制。它為配方提供了最佳的回報(bào)。讓我們以在鋼板上鉆孔為例。
機(jī)器人需要在高規(guī)格鋼板上鉆一個(gè)0.75毫米的孔。現(xiàn)在,這里有兩種類型的動(dòng)作。一種方法是通過(guò)扭矩/速度的連續(xù)作用來(lái)為鉆具創(chuàng)建前推。
另一種方法是切換齒輪以達(dá)到調(diào)制扭矩,以確保工具的安全,這是一個(gè)分立的動(dòng)作。太高的速度會(huì)因過(guò)熱而導(dǎo)致工具損壞。
因此,混合MPO執(zhí)行混合策略,向代理暴露多個(gè)“模式”。因此,機(jī)器人可以選擇連續(xù)和離散動(dòng)作的正確策略。
機(jī)器人技術(shù)已經(jīng)發(fā)展了一段時(shí)間。工業(yè)4.0的夢(mèng)想已經(jīng)來(lái)臨,我們正在看到機(jī)器人自動(dòng)化方面的新進(jìn)展。在這里,我試圖破譯RL模型及其在機(jī)器人控件上的應(yīng)用。這是自動(dòng)化工業(yè)機(jī)器人技術(shù)的驚人進(jìn)步,它將幫助我們創(chuàng)建高效的流程。想了解更多關(guān)于人工智能的信息,請(qǐng)繼續(xù)關(guān)注中培偉業(yè)。