Svmuu 소식 구글 DeepMind가 Gemini Robotics-ER 1.6을 발표했습니다. 이 모델은 로봇의 고수준 추론 모델로 포지셔닝되며, 이전 버전인 ER 1.5와 Gemini 3.0 Flash에 비해 공간 추론 및 다중 시점 이해 능력이 크게 향상되었습니다. 모델은 Gemini API와 Google AI Studio를 통해 개발자에게 공개되었으며, 핵심 업그레이드는 다음 세 가지 능력을 포함합니다:
1. 포인팅(Pointing) 정확도 향상: 정밀한 물체 감지, 계수, 공간 관계 추론(예: "파란색 컵에 들어갈 수 있는 모든 물체를 가리켜 보세요") 및 운동 궤적 계획에 사용될 수 있으며, 화면에 존재하지 않는 물체를 가리키라는 요청을 올바르게 거절할 수 있습니다.
2. 다중 시점 성공 감지: 로봇은 이제 여러 카메라 영상을 종합하여 작업 완료 여부를 판단할 수 있으며, 가림 현상이나 동적 환경에서도 정확성을 유지할 수 있습니다.
3. 계기판 판독 능력 신규 추가: 원형 압력계, 수직 수위계, 디지털 디스플레이 등 다양한 산업용 계기판을 해석할 수 있습니다. 에이전트 시각(Agentic Vision, 시각 추론 + 코드 실행)을 통해 단계적 추론을 구현하여 먼저 세부 영역을 확대하고, 포인팅과 코드를 통해 비율과 간격을 계산한 후, 세계 지식(World Knowledge)과 결합하여 최종 판독값을 도출합니다.
구글 DeepMind, Gemini Robotics-ER 1.6 발표
Recommended Reading




