结构之法 算法之道

订阅数:81

1. ASAP——让宇树G1后仰跳投且跳舞:仿真中重现现实轨迹,然后通过增量动作模型预测仿真与现实的差距,最终缩小差距以对齐 v_JULY_v
2. DexVLA——在VLM上插上1B大小的扩散动作专家:使用带有子步骤推理注释的演示数据训练,15小时搞定叠衣服(含源码解析) v_JULY_v
3. 一文速览可证数学定理的DeepSeek-Prover系列模型:从Prover V1、Prover V1.5到DeepSeek-Prover V2 v_JULY_v
4. 多模态LLaVA系列与Eagle 2——从组合CLIP ViT和Vicuna的LLaVA,到英伟达开源的VLM Eagle 2(用于人形VLA GR00T N1中) v_JULY_v
5. Being-0——集操作、导航、运动为一体的机器人Agent框架:GPT4o高层感知并推理规划、低层VLM导航适配,最终执行技能库 v_JULY_v
6. 从视频中学习的最新进展:从Humanoid-X(自动打字幕)、首个人形VLA Humanoid-VLA到一看视频就学会的VideoMimic v_JULY_v
7. π0.5——让VLA走出实验室,泛化在开放世界中的π0推理加强版:同一个模型中先高层拆解出子任务,后低层执行子任务 v_JULY_v
8. NaVILA——可语音交互的用于四足和人形导航与避障的VLA模型:在VLM的导航规划下,执行基于视觉的运动策略(含NaVILA和rsl_rl的源码解析) v_JULY_v
9. 3D版的VLA:从3D VLA、SpatialVLA到PointVLA——3D点云版的DexVLA,在动作专家中加入3D数据 v_JULY_v
10. 从宇树摇操avp_teleoperate到unitree_IL_lerobot:如何基于宇树人形进行二次开发 v_JULY_v
11. Open-TeleVision源码解析——宇树摇操方案的重要参考:VR控制人形机器人采集数据 v_JULY_v
12. Hi Robot——大脑加强版的π0:基于「VLM的高层次推理+ VLA低层次任务执行」的复杂指令跟随及交互式反馈 v_JULY_v
13. OpenVLA-OFT——微调VLA时加快推理的三大关键设计:支持动作分块的并行解码、连续动作表示以及L1回归(含输入灵活化及对指令遵循的加强) v_JULY_v
14. Fourier-Lerobot——把斯坦福人形动作策略iDP3封装进了Lerobot(含我司七月的idp3落地实践) v_JULY_v
15. GR00T N1——英伟达开源的通用人形VLA:VLM Eagle-2慢思考、DiT快反应,且可类似LAPA利用海量的无标注视频做训练 v_JULY_v
16. LeRobot源码剖析——对机器人各个动作策略的统一封装:包含ALOHA ACT、Diffusion Policy、VLA模型π0 v_JULY_v
17. ViLLA——继AgiBot World之后,智元发布GO1及其背后基于潜在动作的VLA架构ViLLA:利用海量的无标注视频做训练(含LAPA、Moto的详解) v_JULY_v
18. π0的微调——如何基于各种开源数据集、以及私有数据集微调通用VLA π0(含我司七月的微调实践及在机械臂上的部署) v_JULY_v
19. π0源码剖析——从π0模型架构的实现(如何基于PaLI-Gemma和扩散策略去噪生成动作),到基于C/S架构下的模型训练与部署 v_JULY_v
20. Helix——Figure 02上的通用人形VLA:不用微调即可做多个任务的快与慢双系统,让两个机器人协作干活(含清华HiRT详解) v_JULY_v

时光机历史上榜快讯,全部快讯按上榜时间归类筛选

📖 稍等一下,正翻到精彩的一页~

没有更多了

加载失败,刷新页面试试

点击加载更多

目录导航
×