向豆包手机学习,这些是否可以优化 #126
StupidStudentInSchool
started this conversation in
Ideas
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
拆解豆包手机自动化 Agent 完整技术链路的深度帖。它根本不是靠「无障碍」或「截图」——而是拿到了两个近乎“系统级”的底层权限。
📱 核心进程:
1️⃣ AI Kernel:端侧 AI 大脑,Native 堆占 160M,Binder 调用数异常高,典型的本地推理框架。
2️⃣ Auto Action:自动操作 APK,权限列表相当刺激——
🔓 它拥有:
• read frame buffer:直接从 GPU 缓冲区读取渲染画面,不走上层截图 API。
• capture secure video output:可捕获银行类 App 防录屏界面。
• inject event:直接注入输入事件,模拟点击,高于无障碍方案。
🖥️ 更震撼的是:AI 跑在一个「虚拟屏幕」上。
分辨率与物理屏相同,亮度为 0,永远解锁,有独立焦点。你打游戏时,豆包在另一块屏上自己操作,两不干扰。
⬆️ 数据上行:每 3–5 秒向云端(orbrecloud.com)发约 250KB 数据——推测为单帧压缩图像。
⬇️ 指令下行:云端返回约 1KB 的指令,包括点击、滑动、输入、记笔记等 7 种操作。
💡 这意味着:复杂推理和路径规划在云端,本地只执行轻量级操作。
Beta Was this translation helpful? Give feedback.
All reactions