약간의 상식을 갖추기 위한 엔지니어링 가정용 로봇

엎질러진 물을 닦는 것부터 음식을 대접하는 것까지, 로봇들은 점점 더 복잡한 집안 일들을 수행하도록 훈련을 받고 있습니다. 그러한 많은 홈봇 훈련생들은 모방을 통해 배우고 있습니다; 그들은 인간이 그들을 물리적으로 안내하는 동작들을 따라 하도록 프로그램 되어 있습니다.

로봇은 훌륭한 모방품인 것으로 드러났습니다. 하지만 엔지니어들이 모든 가능한 부딪힘과 넛지(nudge)에 적응하도록 프로그래밍하지 않는 한, 로봇은 꼭대기에서 작업을 시작하는 것 외에는 이러한 상황을 어떻게 처리해야 하는지 반드시 알지 못합니다.

이제 MIT 공학자들은 로봇들을 훈련된 경로에서 벗어나게 하는 상황에 직면했을 때 약간의 상식을 주는 것을 목표로 하고 있습니다. 그들은 로봇 동작 데이터를 대형 언어 모델, 즉 LLM의 “상식 지식”과 연결하는 방법을 개발했습니다.

이러한 접근 방식을 통해 로봇은 주어진 많은 가정 작업을 논리적으로 하위 작업으로 구문 분석하고 하위 작업 내의 중단에 물리적으로 조정할 수 있으므로 로봇이 다시 돌아가서 처음부터 작업을 시작할 필요 없이 작업을 진행할 수 있으며 엔지니어가 도중에 발생할 수 있는 모든 오류에 대한 수정 사항을 명시적으로 프로그래밍할 필요도 없습니다.

“모방 학습은 가정용 로봇을 가능하게 하는 주류 접근법입니다. 하지만 로봇이 인간의 움직임 궤적을 맹목적으로 모방한다면, 작은 오류들이 누적되어 결국 남은 실행 과정을 탈선시킬 수 있습니다,” 라고 MIT 전기공학과 컴퓨터과학과의 대학원생인 옌웨이 왕이 말했습니다. “우리의 방법으로, 로봇은 실행 오류를 스스로 교정하고 전반적인 작업 성공을 향상시킬 수 있습니다.”

Wang과 그의 동료들은 그들이 5월에 열리는 ICLR (International Conference on Learning Representations)에서 발표할 한 연구에서 그들의 새로운 접근 방식을 자세히 설명합니다. 이 연구의 공동 저자는 EECS 대학원생인 Wang-Hsuan and Jiyuan Mao, MIT 항공우주학과(AeroAstro)의 포스트닥 박사인 Michael Hagenow, 그리고 MIT의 H.N. Slater 항공우주학 교수인 Julie Shah를 포함합니다.


언어작업

연구원들은 그들의 새로운 접근 방식을 간단한 안무로 보여줍니다: 한 그릇에서 구슬을 퍼서 다른 그릇에 붓는 것입니다. 이 일을 하기 위해, 공학자들은 전형적으로 퍼서 붓는 동작을 통해 로봇을 하나의 유체 궤도에서 움직였습니다. 그들은 로봇에게 흉내 내기 위해 여러 번 인간의 시범을 보이기 위해 이것을 할 수 있습니다.

“하지만 인간의 시위는 하나의 길고 지속적인 궤도입니다.”라고 Wang은 말합니다.

그 팀은 사람이 한 번에 하나의 작업을 시연할 수 있지만, 그 작업은 일련의 하위 작업, 즉 궤적에 달려 있다는 것을 깨달았습니다. 예를 들어, 로봇은 퍼내기 전에 먼저 그릇에 손을 뻗어야 하고, 빈 그릇으로 이동하기 전에 구슬을 퍼내야 하는 등의 과정을 거쳐야 합니다. 이러한 하위 작업 중에 로봇이 실수를 저지르기 위해 밀치거나 넛지되면, 엔지니어가 각 하위 작업에 명시적으로 레이블을 지정하고 로봇이 해당 실패에서 복구할 수 있는 새로운 시연을 프로그래밍하거나 수집하지 않는 한 처음부터 멈추고 시작하는 것이 유일한 방법입니다.

“그런 수준의 계획은 매우 지루합니다.”라고 Wang은 말합니다.

대신에, 그와 그의 동료들은 이 작업의 일부가 LLM에 의해 자동으로 수행될 수 있다는 것을 발견했습니다. 이러한 딥 러닝 모델은 단어, 문장, 그리고 단락 사이의 연결을 확립하기 위해 사용하는 거대한 텍스트 라이브러리를 처리합니다. 이러한 연결을 통해, LLM은 마지막에 올 가능성이 있는 단어의 종류에 대해 학습한 것에 기초하여 새로운 문장을 생성할 수 있습니다.

연구원들은 문장과 문단 외에도 LLM이 주어진 과제에 관여할 수 있는 하위 과제의 논리적인 목록을 만들도록 요청할 수 있다는 것을 발견했습니다. 예를 들어, 한 그릇에서 다른 그릇으로 구슬을 떠먹는 것과 관련된 행동을 나열하도록 요청하면 LLM은 “도달하기”, “스쿱”, “수송”, “푸어”와 같은 일련의 동사를 생성할 수 있습니다

“LLM은 자연어로 어떻게 과제의 각 단계를 수행하는지 알려주는 방법을 가지고 있습니다. 인간의 지속적인 시연은 물리적인 공간에서 그 단계를 구현하는 것입니다”라고 왕은 말합니다. “그리고 우리는 로봇이 과제의 어느 단계에 있는지 자동적으로 알고 스스로 계획을 다시 세우고 복구할 수 있도록 두 단계를 연결하고 싶었습니다.”


구슬 매핑

그들의 새로운 접근법을 위해, 그 팀은 특정한 하위 작업에 대한 LLM의 자연어 레이블을 물리적인 공간의 로봇 위치 또는 로봇 상태를 인코딩하는 이미지와 자동으로 연결하는 알고리즘을 개발했습니다. 로봇의 물리적인 좌표 또는 로봇 상태의 이미지를 자연어 레이블에 매핑하는 것은 “그라인딩”이라고 알려져 있습니다. 그 팀의 새로운 알고리즘은 접지 “분류기”를 배우도록 설계되었는데, 이것은 그들이 로봇의 물리적인 좌표 또는 이미지 뷰가 주어졌을 때, 예를 들어 “도달” 대 “스쿱”과 같은 의미론적 하위 작업이 무엇인지 자동으로 식별하는 것을 배운다는 것을 의미합니다.

“그라운드 분류기는 로봇이 물리적 공간에서 무엇을 하고 있는지와 LLM이 하위 작업에 대해 알고 있는 것, 그리고 각 하위 작업 내에서 주의를 기울여야 하는 제약 조건 사이의 대화를 용이하게 합니다.”라고 Wang은 설명합니다.

그 팀은 그들이 훈련시킨 로봇 팔을 이용한 실험에서 그 접근법을 보여주었습니다. 실험자들은 먼저 공에 손을 대고, 구슬을 퍼 올리고, 빈 그릇 위로 운반하고, 붓는 작업을 통해 로봇을 물리적으로 안내함으로써 훈련시켰습니다. 몇 번의 시범 후에, 그 팀은 미리 훈련된 LLM을 사용했고 모델에게 한 그릇에서 다른 그릇으로 구슬을 퍼내는 데 관련된 단계를 나열하도록 요청했습니다. 그리고 나서 연구자들은 LLM의 정의된 하위 작업을 로봇의 움직임 궤적 데이터와 연결하기 위해 그들의 새로운 알고리즘을 사용했습니다. 그 알고리즘은 궤적에서 로봇의 물리적 좌표와 해당 이미지 뷰를 주어진 하위 작업에 매핑하는 것을 자동으로 학습했습니다.

그리고 나서 그 팀은 새롭게 학습된 접지 분류기를 사용하여 로봇이 스스로 퍼내는 일을 수행하도록 했습니다. 로봇이 그 일의 단계들을 통과하면서, 실험자들은 로봇을 그 길에서 밀어내고 밀어냈고, 다양한 지점에서 구슬을 숟가락에서 떨어뜨렸습니다. 처음부터 다시 시작하거나, 숟가락에 구슬이 없는 상태로 맹목적으로 계속하는 대신, 로봇은 스스로 수정할 수 있었고, 다음 단계로 넘어가기 전에 각각의 하위 작업을 완료했습니다. (예를 들어, 로봇은 구슬을 빈 그릇으로 옮기기 전에 반드시 성공적으로 퍼내야 합니다.)

“우리의 방법으로, 로봇이 실수를 할 때, 우리는 인간에게 프로그램을 짜거나 장애로부터 회복하는 방법에 대한 추가적인 시연을 하도록 요구할 필요가 없습니다”라고 왕은 말합니다. “텔레오퍼레이션 시스템에서 수집된 데이터로 가정용 로봇을 훈련시키기 위한 엄청난 노력이 있기 때문에 이것은 매우 흥미롭습니다. 우리의 알고리즘은 이제 외부의 동요에도 불구하고 훈련 데이터를 복잡한 작업을 수행할 수 있는 강력한 로봇 행동으로 변환할 수 있습니다.”

Leave a Comment