Skip to content

关于autodl等docker环境运行examples/train/math_tir/train_1.5b_grpo.sh存在端口访问bug。[Bug] Tool server fails to start in Docker/container environments due to hostname-based address binding #146

@mkk541423-sys

Description

@mkk541423-sys

关于docker端口问题:

问题根因examples/train/math_tir/train_1.5b_grpo.sh里面

原始代码:

host=$(hostname -i | awk '{print $1}')
tool_server_url=http://$host:$port/get_observation
python -m verl_tool.servers.serve --host $host --port $port ...

问题点:

  1. 网络地址配置错误
    • Tool server 监听容器内部IP(如 172.17.0.2
    • 训练进程也尝试通过这个IP访问 tool server
    • 在某些容器网络配置下,进程无法通过容器IP访问本机服务
  2. 缺少健康检查:无法确认 tool server 是否真正就绪

解决方案

host=0.0.0.0  # Tool server 监听所有网络接口
tool_server_url=http://127.0.0.1:${port}/get_observation  # 训练进程用回环地址访问本机服务

核心改变:

  • ✅ Tool server 监听 0.0.0.0(接受所有连接)
  • ✅ 训练进程通过 127.0.0.1 访问本机服务(避免容器网络问题)
  • ✅ 添加启动健康检查

图片如下:

Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions