[討論] 為何機器人AI不透過強化式學習訓練?

看板 Tech_Job
作者 seal46825 (Vanish)
時間 2024-10-16 23:54:43
留言 93 ( 12推 7噓 74→ )
回文 2則
剛剛看了YouTube 介紹特斯拉Optimus的影片 裡面提到特斯拉裡面有50位人員 專門用VR裝置去操控Optimus 去執行某修動作 例如分類物品 然後就可以透過這些動作訓練模型 但是跟特斯拉成千上萬個車子數據比起來 這只能算是小巫見大巫 那我就好奇 為什麼機器人不透過強化式學習的方式去訓練 如同訓練AI玩遊戲一樣 可以給個很明確的計分方式 然後讓AI自己去玩遊戲 只要規則夠明確 AI自己就可以訓練練到很強 同樣道理 我讓一顆球放在一個發射平台 會自動彈出 然後球上有晶片 只要機器人可以在越短的時間去把球撿回來 他就可以得到高分 如此一來他就可以去學習如何快速辨識球的位置 如何規劃路線 如何最佳應用他的身體 然後快速把球撿起來 放回發射平台 這樣作法的好處是可以做出成千上萬台機器人 讓他們自己去訓練 一年365天24小不停歇 這樣就能產生大量數據 快速精進機器人AI模型 同樣的模式還可以特用的很多事情上 所以為何現在的機器人公司不這樣做 要用真的人去訓練搜集數據呢? 還是其實有在做了? ----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.92.120 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1729094085.A.D1F.html

留言

drkkimo 你怎麼知道沒有人作這個? 10/17 00:03 1F
原來已經有了嗎?
HaHaPoint 因為不把真人互動加進訓練的話 你會訓練出殺人機器 10/17 00:04 2F
如果任務能成功達成 好像也不失為一個方法? 只是任務怎麼定義就很重要
HaHaPoint 或是大法師那樣走路的機器人 因為那樣比較有效率 10/17 00:04 3F
※ 編輯: seal46825 (123.192.92.120 臺灣), 10/17/2024 00:05:46
※ 編輯: seal46825 (123.192.92.120 臺灣), 10/17/2024 00:06:44
DrTech 這在機器手臂取物都做到爛的事情… 10/17 00:22 4F
peter3354152 上網搜尋robotic deep reinforcement learning 應 10/17 00:25 5F
peter3354152 該會有一堆paper 10/17 00:25 6F
DrTech 另外,RL 訓練實體動作極差,成本極高。通常都是先 10/17 00:26 7F
DrTech 建立模擬環境,跟本不是你文中的直接physical去碰撞 10/17 00:26 8F
DrTech 訓練。 10/17 00:26 9F
DrTech 你這些說法根本就是外行,連訓練成本,效率,都不考 10/17 00:28 10F
DrTech 慮。訓練一個動作,RL隨意碰撞,機器人先壞100台, 10/17 00:28 11F
DrTech 外行人傻了才這樣想。 10/17 00:28 12F
seal46825 我的確是外行 對AI好奇整天亂看而已 問題是如果要叫 10/17 00:32 13F
seal46825 幾千萬個真人去搜集數據 成本不會比較低啊 除非可以 10/17 00:32 14F
seal46825 跟特斯拉車子一樣發展出可以讓人去操控機器人的商業 10/17 00:32 15F
seal46825 模式 10/17 00:32 16F
seal46825 用第一性原理去思考 這個沒道理做不到 我認為馬斯克 10/17 00:33 17F
seal46825 肯定也有想過 至於為什麼我們沒看到有兩個原因 一個 10/17 00:33 18F
seal46825 是其實有做 但我們不知道 第二個是其實有什麼大瓶頸 10/17 00:34 19F
seal46825 在 這就是我好奇的地方 10/17 00:34 20F
kevin0210 這個問題我覺得蠻優的 10/17 00:50 21F
chang1248w 它們是先在模擬環境練了幾萬年才放出來現實世界的 10/17 01:00 22F
mrsix 畢竟是泛用型的人形機器人,日後可能會用於長照或 10/17 01:01 23F
chang1248w 現在在做的是類似GPT一樣透過人類行為微調 10/17 01:01 24F
mrsix 托兒,這種與人類互動的行為得由人類親自教導,而 10/17 01:01 25F
mrsix 不是機器自己訓練自己。 10/17 01:01 26F
mrsix 有樣東西叫人因工程 10/17 01:02 27F
chang1248w 請工人一來不划算,二來把工人的行為轉換成機器人 10/17 01:02 28F
chang1248w 能用的數據太貴了 10/17 01:02 29F
mrsix 而且特斯拉機器人現在應該還不敢做跑步之類的快速 10/17 01:03 30F
mrsix 動作,撞到人蠻糟糕的。 10/17 01:03 31F
chang1248w 一個機器人是數十個關節的馬達還有感知器在協同, 10/17 01:03 32F
chang1248w 只有人類操作工具的影像根本不夠 10/17 01:03 33F
chang1248w 模擬環境裡應該能做到跑,只是現實與模擬的誤差還 10/17 01:05 34F
chang1248w 沒調教過來 10/17 01:05 35F
mrsix 應該不是影像,而是透過遠端遙控的方式訓練 10/17 01:05 36F
yunf 全部都給你說完了他要賺什麼 10/17 01:07 37F
mrsix 黃仁勳來台灣那個發表會不是提到Omniverse之類的孿 10/17 01:07 38F
mrsix 生模型來訓練機器人 10/17 01:07 39F
yunf 他就是要像m$一樣慢慢地滲透到你國家的每一個角落然 10/17 01:08 40F
yunf 後再更新收費 10/17 01:08 41F
yunf 一下就到達完全體 馬上就被抄走了 10/17 01:08 42F
wwewcwwwf 有阿 記得所羅門 吹邊緣學習3年了 不知學到哪了 10/17 01:20 43F
aria0520 lecun提的世界模型路線可以了解一下 10/17 01:26 44F
yunf 台灣公司就不用看了連日本都打不贏 10/17 01:29 45F
yunf 不然就是才剛有創新的時候就被買走 10/17 01:30 46F
yunf 不要說機器人能長照好嘛笑死人了 10/17 01:42 47F
yunf 沒照顧過老人的才會嘴砲說機器人長照 10/17 01:43 48F
yunf 如果是這樣的話東協那些都不用發展了 10/17 01:43 49F
yunf 專心訓練ai就好 10/17 01:43 50F
DarkIllusion 用RL做機器人策略有獎勵稀疏、sim2real gap問題,有 10/17 01:54 51F
DarkIllusion 人類展示當訓練資料是最好的 10/17 01:54 52F
yunf 你講的這個二十年後做不做的出來還是個問題 10/17 02:03 53F
yunf 更何況要能用得起 10/17 02:04 54F
yunf 現在玩的都還是剛草創而已 10/17 02:05 55F
yunf 電力就不夠了 10/17 02:05 56F
yunf 其實這也都是個騙局 10/17 02:05 57F
yunf 要夠不夠都取決於他要怎麼用 10/17 02:05 58F
yunf 經濟部也只能瞎找電 10/17 02:06 59F
yunf 真的管制誰在用演算法的那個人才是關鍵 10/17 02:07 60F
yunf 你們要想想在這個賽局最後 10/17 02:09 61F
yunf 投入那麼多 10/17 02:09 62F
yunf 你能否真的完全擁有一個堪用的機器人? 10/17 02:10 63F
yunf 還是又是幫人養老婆? 10/17 02:10 64F
yunf 這些資料庫雲端都不是台灣本身的技術台灣都是搞些 10/17 02:11 65F
yunf 有名無實的代工 10/17 02:11 66F
Zepho 例如球發射後卡在天花板 照你說的訓練 機器人永遠 10/17 03:44 67F
Zepho 不可能找到方法把球拿下來 10/17 03:44 68F
yunf 沒有什麼是永遠的 10/17 03:59 69F
yunf 不過我想到的事情你還沒想到 10/17 03:59 70F
yunf 你是否能擁有一個堪用的機器人? 10/17 03:59 71F
yunf 說不定20年後你都還等不到你想要的那種 10/17 04:00 72F
yunf 20年後你的主權還剩多少? 10/17 04:02 73F
yunf 你懂他們真的想要的是什麼嗎? 10/17 04:03 74F
Coslate 現在一堆做MBRL 唸書很難? 10/17 04:21 75F
molopo 用講的很簡單 10/17 06:16 76F
KuoJia 哪裡沒有?對岸也都在做 你可能是指agi強人工智慧吧 10/17 06:27 77F
KuoJia 10/17 06:27 78F
WenliYang 機器人世界 還早得很 死前都不會發生 10/17 06:44 79F
SilverFocus 怎麼會有人天真的覺得只有自己想到? 10/17 07:05 80F
dildoe 連搞遊戲都有逆運動了 何不用現成的?XD 10/17 07:55 81F
neon7134 典型的沒資本沒腦袋 還一天到晚以為人家都想不到我 10/17 08:17 82F
neon7134 的方法好笨 10/17 08:17 83F
ian41360 機器人:把亂丟球的猴子殺了就不用撿球了 10/17 08:30 84F
kkes0001 多看點論文 10/17 08:42 85F
kkes0001 蠢不是問題,問題是不會查資料 10/17 08:42 86F
auther google 的桌球機器人 paper 就是這樣啊 10/17 08:49 87F
ohlong RL沒有比學真人來得快 像tesla這次vr操控機器人的 10/17 09:31 88F
ohlong 方式 其實也是可以拿來建data去training 10/17 09:31 89F
JJiaK 你怎麼知道沒有? 10/17 09:49 90F
jimmytzeng 強化學習用在機器人上已經很多人在做了呀 10/17 11:00 91F
gogogogo3333 llm/vlm is based on RLHF for long time. 10/17 12:25 92F
smailzhu Isaac Sim https://youtu.be/AYSfcgVv9-U 10/17 12:47 93F
rich_yt https://youtu.be/AYSfcgVv9-U 93F

最新文章

[PVC ] pvc
pvc-gk as15522940
2024-10-19 12:23:14
[心得] 新竹遠見眼科Smile pro
laser_eye kudos7
2024-10-19 12:13:54
[出售] 全國 兒童套書
babyproducts jjqueen
2024-10-19 12:11:42
[日記] 1019
dietdiary helpm
2024-10-19 12:10:06
[出售] 全國 繪本 橋樑書
babyproducts jjqueen
2024-10-19 12:09:15
[日記] 1018 好像又爆
dietdiary helpm
2024-10-19 12:08:33
[出售] 台北 STOKKE 摺疊澡盆
babyproducts b7281449
2024-10-19 12:01:47