2023년은 ChaGPT의 해였습니다. 그리고 2024년은 이를 기반으로 발전하는 로봇의 해입니다. 아래 글에 따르면, 2024년과 그 이후에 가능해질 로봇들은 다음과 같은 특징을 갖출 것으로 예상됩니다:

1. **고도의 다기능성**: 다중 모달 언어 모델(LLM)을 통합하여, 로봇들은 다양한 환경과 상황에서 작업을 수행할 수 있게 됩니다. 이것은 로봇이 언어 이해, 시각적 인식, 그리고 물리적 상호작용을 동시에 처리할 수 있음을 의미합니다.

2. **개선된 물리적 상호작용**: 로봇 팔과 같은 물리적 I/O 장치를 통해, 로봇들은 더욱 정교하고 정밀한 작업을 수행할 수 있게 됩니다. 이는 제조, 의료, 가정용 로봇 등 다양한 분야에서의 응용을 가능하게 합니다.

3. **고급 추론과 저급 제어의 통합**: 고급 추론(예: 문제 해결, 계획 수립)과 저급 제어(예: 물체 조작, 이동)를 통합함으로써, 로봇들은 더 복잡하고 다양한 작업을 자율적으로 수행할 수 있게 됩니다.

4. **강화된 하드웨어**: 견고하고 진보된 하드웨어를 통해, 로봇들은 더 오래 지속되고, 다양한 환경에서 안정적으로 작동할 수 있게 됩니다.

5. **데이터 및 시뮬레이션의 활용**: 대규모 데이터 세트와 현실적인 시뮬레이션을 통해, 로봇들은 더 빠르게 학습하고, 더 다양한 시나리오에 적응할 수 있게 됩니다. 이는 로봇의 민첩성과 작업 수행 능력을 크게 향상시킬 것입니다.

결과적으로, 이러한 발전은 로봇이 인간의 일상생활, 산업, 의료 및 기타 많은 분야에서 더욱 중요한 역할을 수행할 수 있게 만들 것입니다. 이러한 로봇들은 더욱 지능적이고, 유연하며, 다재다능할 것으로 예상됩니다. 이는 로봇 기술이 인간과의 상호작용, 자율적인 작업 수행, 그리고 복잡한 문제 해결 능력에서 중대한 진전을 이루게 될 것임을 의미합니다.

 

아래의 링크는 해당 글입니다.

 

https://x.com/DrJimFan/status/1740041712184246314?s=20

번역

2024년에 대해 물어보셨습니다. 대답은 로보틱스입니다. 기간. 물리적 AI 에이전트에 대한 ChatGPT 순간까지 약 3년 남았습니다. 우리는 너무 오랫동안 모라벡의 역설에 시달렸습니다. 이는 “인간이 쉽게 하는 작업이 AI에게는 매우 어렵고, 그 반대도 마찬가지”라는 직관에 반하는 현상입니다.

2024년은 AI 커뮤니티가 이 저주에 대항하여 크게 싸우기 시작한 첫 해로 기억될 것입니다. 우리는 즉시 이기지 못할 것이지만, 이기는 길에 있을 것입니다.

2023년에 우리는 로봇을 위한 미래의 기반 모델과 플랫폼을 엿보았습니다:
– 로봇 팔을 물리적 I/O 장치로 사용하는 다중 모달 LLM: VIMA, PerAct, RvT (NVIDIA), RT-1, RT-2, PaLM-E (Google), RoboCat (DeepMind), Octo (버클리, 스탠포드, CMU) 등.
– 시스템 1 고급 추론(LLM)과 시스템 2 저급 제어 사이의 격차를 메우는 알고리즘: Eureka (NVIDIA), Code as Policies (Google) 등.
– 견고한 하드웨어에 대한 엄청난 발전: Tesla Optimus @elonmusk, Figure @adcock_brett, 1X @ericjang11, Apptronik, Sanctuary, Agility+Amazon, Unitree 등.
– 데이터는 항상 로보틱스의 아킬레스건이었습니다. 연구 커뮤니티는 다음 ImageNet과 같은 Open X-Embodiment (RT-X) 데이터 세트를 큐레이션하기 위해 함께 모이고 있습니다. 아직 충분히 다양하지 않지만, 작은 발걸음이 큰 발걸음입니다.
– 시뮬레이션과 합성 데이터는 로봇의 민첩성 해결뿐만 아니라 일반적인 컴퓨터 비전에서도 중요한 역할을 할 것입니다.
(1) NVIDIA Isaac은 실시간보다 1000배 빠른 속도로 현실을 시뮬레이션 할 수 있습니다.

들어오는 데이터 스트림은 컴퓨팅 규모에 따라 확장됩니다.
(2) 하드웨어 가속 레이트레이싱으로 사실주의를 가능하게 할 수 있습니다. 사실적인 렌더링은 분할, 깊이, 3D 포즈 등과 같은 무료 지상 진실 주석도 제공합니다.
(3) 시뮬레이터는 실제 데이터를 확장하여 훨씬 더 큰 데이터 세트를 만들 수 있으며, 비싼 인간 시연 노력을 크게 줄일 수 있습니다. MimicGen (NVIDIA)은 대표적인 예입니다.

개인적으로 전부 투자하고 있습니다. 최고는 아직 오지 않았습니다.