Technical Notes
Study
시뮬레이션, 강화학습, 로봇 제어, 개발 환경 구축 과정에서 정리한 기술 노트입니다.
[Unitree Go2 part 0] Unitree Go2와 Unitree ROS2 구조 분석
Unitree Go2에서 강화학습 policy를 deploy하기 전에 알아야 하는 하드웨어, Unitree SDK2, DDS, Unitree ROS2, lowstate, lowcmd 구조를 정리한다.
Read post
[IsaacLab Part 4] RL Policy로 Isaac Sim에서 Go2 로봇 걷게하기
학습된 RL policy를 load해 Isaac Sim에서 Unitree Go2를 제어하는 inference 환경 구성을 정리한다.
Read post
[IsaacLab Part 3] 강화학습으로 Go2 걷게하기
Isaac Lab manager-based 환경과 RSL-RL 프레임워크로 Unitree Go2 walking policy를 학습하는 흐름을 정리한다.
Read post
[IsaacLab Part 2] Unitree Go2 환경 구성하기
Isaac Lab의 InteractiveSceneCfg와 SimulationContext로 Unitree Go2 scene을 구성하는 과정을 정리한다.
Read post
[IsaacLab Part 1] Unitree Go2 URDF import
Isaac Lab을 설치하고 Unitree Go2 URDF를 Isaac Sim scene에 load하는 과정을 정리한다.
Read post
Isaac Sim Tutorial 6. ROS2 Joint Control
Isaac Sim에서 Franka Panda의 joint state를 ROS2로 publish하고 joint command를 subscribe해 관절을 제어하는 흐름을 정리한다.
Read post
Isaac Sim Tutorial 5. ROS2 Publish Rate and QoS
Isaac Sim ROS2 OmniGraph에서 publish rate를 조정하고 QoS profile과 static publisher를 설정하는 흐름을 정리한다.
Read post
Isaac Sim Tutorial 4. TF Trees and Odometry
Isaac Sim에서 TurtleBot의 TF tree와 odometry를 ROS2로 publish하고 RViz2에서 확인하는 흐름을 정리한다.
Read post
Isaac Sim Tutorial 3. RTX Lidar Sensors
Isaac Sim에서 TurtleBot에 RTX 2D/3D Lidar를 붙이고 ROS2 LaserScan, PointCloud topic으로 publish하는 흐름을 정리한다.
Read post
Isaac Sim Tutorial 2. ROS2 Cameras
Isaac Sim의 TurtleBot에 카메라를 붙이고 ROS2 image topic으로 publish한 뒤 RViz2에서 확인하는 흐름을 정리한다.
Read postIsaac Sim Tutorial 1. TurtleBot으로 ROS2 연결하기
Isaac Sim에서 TurtleBot3 URDF를 불러오고 ROS2 /cmd_vel 메시지로 주행시키는 전체 흐름을 정리한다.
Read post
6. Policy Gradient DRL
Policy Gradient 계열의 대표 알고리즘인 DDPG, TRPO, Natural Policy Gradient, PPO의 핵심 아이디어와 발전 흐름을 정리한다.
Read post
5. DRL (Deep Reinforcement Learning)
DQN 계열 알고리즘과 Policy Gradient, REINFORCE, Actor-Critic, A3C, A2C의 핵심 아이디어를 정리한다.
Read post
4. RL (Reinforcement Learning)
Unknown MDP에서 경험을 통해 가치를 학습하는 강화학습의 핵심 방법인 GPI, MC, TD, Sarsa, Q-learning, Double Q-learning을 정리한다.
Read post
3. DP (Dynamic Programming)
Known MDP에서 벨만 방정식을 이용해 최적 정책을 찾는 동적 계획법, 정책 반복, 가치 반복을 정리한다.
Read post
2. Bellman Equation
벨만 방정식이 필요한 이유와 가치 함수, 최적 정책, Known MDP와 Unknown MDP의 차이를 정리한다.
Read post
1. MDP (Markov Decision Process)
강화학습의 뼈대가 되는 MDP의 구성 요소, 마르코프 속성, 최적 정책의 의미를 정리한다.
Read post