Svmuuの報道によると、Google DeepMindはGemini Robotics-ER 1.6をリリースしました。これはロボットの高次推論モデルとして位置づけられ、前世代のER 1.5やGemini 3.0 Flashと比較して、空間推論と多視点理解において顕著な向上が見られます。モデルはすでにGemini APIとGoogle AI Studioを通じて開発者に公開されており、主なアップグレードは以下の3つの能力を含みます:
1. ポインティング精度の向上:正確な物体検出、カウント、空間関係推論(例:「青いカップに入るすべての物体を指し示して」)、および運動軌道計画に使用可能であり、画面内に存在しない物体へのポインティングを適切に拒否できます。
2. 多視点成功検出:ロボットは複数のカメラ映像を統合してタスクが完了したかどうかを判断できるようになり、遮蔽や動的環境下でも精度を維持できます。
3. 新たな計器読み取り能力:円形圧力計、垂直液面指示器、デジタルディスプレイなど、さまざまな産業用計器の解釈が可能です。エージェント視覚(視覚推論+コード実行)による段階的推論を実現し、まず詳細領域を拡大し、次にポインティングとコードで比率と間隔を計算し、最後に世界知識と組み合わせて読み値を導き出します。