1. |
ASAP——让宇树G1后仰跳投且跳舞:仿真中重现现实轨迹,然后通过增量动作模型预测仿真与现实的差距,最终缩小差距以对齐 |
v_JULY_v |
|
2. |
DexVLA——在VLM上插上1B大小的扩散动作专家:使用带有子步骤推理注释的演示数据训练,15小时搞定叠衣服(含源码解析) |
v_JULY_v |
|
3. |
一文速览可证数学定理的DeepSeek-Prover系列模型:从Prover V1、Prover V1.5到DeepSeek-Prover V2 |
v_JULY_v |
|
4. |
多模态LLaVA系列与Eagle 2——从组合CLIP ViT和Vicuna的LLaVA,到英伟达开源的VLM Eagle 2(用于人形VLA GR00T N1中) |
v_JULY_v |
|
5. |
Being-0——集操作、导航、运动为一体的机器人Agent框架:GPT4o高层感知并推理规划、低层VLM导航适配,最终执行技能库 |
v_JULY_v |
|
6. |
从视频中学习的最新进展:从Humanoid-X(自动打字幕)、首个人形VLA Humanoid-VLA到一看视频就学会的VideoMimic |
v_JULY_v |
|
7. |
π0.5——让VLA走出实验室,泛化在开放世界中的π0推理加强版:同一个模型中先高层拆解出子任务,后低层执行子任务 |
v_JULY_v |
|
8. |
NaVILA——可语音交互的用于四足和人形导航与避障的VLA模型:在VLM的导航规划下,执行基于视觉的运动策略(含NaVILA和rsl_rl的源码解析) |
v_JULY_v |
|
9. |
3D版的VLA:从3D VLA、SpatialVLA到PointVLA——3D点云版的DexVLA,在动作专家中加入3D数据 |
v_JULY_v |
|
10. |
从宇树摇操avp_teleoperate到unitree_IL_lerobot:如何基于宇树人形进行二次开发 |
v_JULY_v |
|
11. |
Open-TeleVision源码解析——宇树摇操方案的重要参考:VR控制人形机器人采集数据 |
v_JULY_v |
|
12. |
Hi Robot——大脑加强版的π0:基于「VLM的高层次推理+ VLA低层次任务执行」的复杂指令跟随及交互式反馈 |
v_JULY_v |
|
13. |
OpenVLA-OFT——微调VLA时加快推理的三大关键设计:支持动作分块的并行解码、连续动作表示以及L1回归(含输入灵活化及对指令遵循的加强) |
v_JULY_v |
|
14. |
Fourier-Lerobot——把斯坦福人形动作策略iDP3封装进了Lerobot(含我司七月的idp3落地实践) |
v_JULY_v |
|
15. |
GR00T N1——英伟达开源的通用人形VLA:VLM Eagle-2慢思考、DiT快反应,且可类似LAPA利用海量的无标注视频做训练 |
v_JULY_v |
|
16. |
LeRobot源码剖析——对机器人各个动作策略的统一封装:包含ALOHA ACT、Diffusion Policy、VLA模型π0 |
v_JULY_v |
|
17. |
ViLLA——继AgiBot World之后,智元发布GO1及其背后基于潜在动作的VLA架构ViLLA:利用海量的无标注视频做训练(含LAPA、Moto的详解) |
v_JULY_v |
|
18. |
π0的微调——如何基于各种开源数据集、以及私有数据集微调通用VLA π0(含我司七月的微调实践及在机械臂上的部署) |
v_JULY_v |
|
19. |
π0源码剖析——从π0模型架构的实现(如何基于PaLI-Gemma和扩散策略去噪生成动作),到基于C/S架构下的模型训练与部署 |
v_JULY_v |
|
20. |
Helix——Figure 02上的通用人形VLA:不用微调即可做多个任务的快与慢双系统,让两个机器人协作干活(含清华HiRT详解) |
v_JULY_v |
|