NVIDIA 研究チーム 基盤モデル DreamDojo 公開 試行回数を削減へ

NVIDIA「DreamDojo」発表 人間の一人称視点でロボットの予測能力向上

※記事を視覚化したイメージであり、実際の事象とは異なります。

本サイトの記事や画像は、AIが公的資料や複数の報道を基に事実関係を整理・再構成し制作したものです。[続きを表示]特定の報道内容や表現を再利用・要約することを目的としたものではありません。ただし、誤りや不確定な情報が含まれる可能性がありますので、参考の一助としてご覧いただき、実際の判断は公的資料や各出典元の原文をご確認ください。[私たちの取り組み]

ロボットが物理世界で動いた結果を先回りして予測し、試行錯誤の回数を減らす――そのための汎用「世界モデル」として、NVIDIAなどの研究チームは2月6日、基盤モデル「DreamDojo」を研究論文として公開した。44,000時間の人間の一人称視点動画を学習に使い、データ規模を従来水準から大きく押し広げた点が柱だ。

4.4万時間の一人称動画 世界モデル学習の土台

DreamDojoは、ロボットが行動の結果を頭の中でシミュレーションする「世界モデル」を、日常環境の大規模動画から鍛える発想に立つ。論文では、世界モデルの学習で壁になりやすい「データのカバー範囲」と「行動ラベルの不足」を課題として挙げ、まずは人間動画で多様な物体操作や接触を幅広く覚えさせる方針を示した。

中核となる事前学習用データは「DreamDojo-HV」で、人間の一人称視点動画が約44,000時間分に及ぶ。従来の最大規模データセットと比べ、期間で15倍、シーン数で2,000倍、スキルの種類で96倍と位置づける。狙いは、特定のロボット実機で延々とデータを集める前に、物理の共通部分を先に身につけさせることにある。

連続潜在アクション 少量の実機データで適用

手法面では、動画に明示的な操作ラベルがない状況を補うため、「連続的な潜在アクション」を代理の行動表現として導入し、観測(動画)から相互作用の因果を学びやすくする設計を採る。さらに、事前学習後に小規模な対象ロボットのデータで追加学習(ポストトレーニング)し、個別ハードウェアに寄せる流れを想定する。

運用速度も意識しており、蒸留パイプラインで実時間に近い推論速度(約10.81fps)へ加速したとする。応用例としては、遠隔操作の補助、方策(ポリシー)の評価、モデルベース計画などを挙げ、未見の物体や環境を含むベンチマークで有効性を検証したとしている。

参考・出典

ニュースはAIで深化する—。日々の出来事を深掘りし、次の時代を考える視点をお届けします。

本サイトの記事や画像はAIが公的資料や報道を整理し制作したものです。
ただし誤りや不確定な情報が含まれることがありますので、参考の一助としてご覧いただき、
実際の判断は公的資料や他の報道を直接ご確認ください。
[私たちの取り組み]