[Bug]: 0.14.0rc1，minimax-2.5，请求体中max_tokens超32k报错返回400

Your current environment

版本：0.14.0rc1
配置：双机800T A2
固件与驱动版本：25.2.2
拉起参数配置与正式拉起前查询env，详情如下

env查询： [2026-03-06T11:14:13+0000] [AICP_SCRIPT] [DEBUG] #set general env 75 /home/aicp-scripts/infer.sh: line 76: /usr/local/Ascend/ascend-toolkit/latest/aarch64-linux/script/set_env.sh: No such file or directory 76 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [INFO] MIES_CONTAINER_IP=137.4.6.104 77 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] #set master and worker env 78 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [INFO] ************************************************************** 79 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [INFO] Running in multi-node mode 80 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [INFO] ************************************************************** 81 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] #print env 82 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] *************************** ENV ****************************** 83 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] Model name is: MiniMax-M2.5 84 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] MAX_SEQ_LEN: 16384 85 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] VLLM_HOST_IP: 137.4.6.104 86 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] HCCL_IF_IP: 137.4.6.104 87 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] GLOO_SOCKET_IFNAME: net1 88 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] TP_SOCKET_IFNAME: net1 89 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] ASCEND_RT_VISIBLE_DEVICES: 0,1,2,3,4,5,6,7 90 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] MAX_NUM_BATCHED_TOKENS: 4096 91 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] GPU_MEM_UTIL: 0.9 92 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] TASK: <auto,classify,draft,embed,embedding,generate,reward,score,transcription> 93 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] DTYPE: bfloat16 <auto,bfloat16,float,float16,float32,half> 94 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] INSTANCE_NUM: 1 95 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] HF_OVERRIDES: 96 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] INFERENCE_URL: http://137.4.6.104:8008 97 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] INSTANCE_NUM: 1 98 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] HF_OVERRIDES: 99 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] DATA_PARALLEL_SIZE: 2 100 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] DATA_PARALLEL_SIZE_LOCAL: 1 101 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] TENSOR_PARALLEL_SIZE: 8 102 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] DATA_PARALLEL_START_RANK: 1 103 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] HCCL_CONNECT_TIMEOUT: 7200 104 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] ************************************************************** 105 [2026-03-06T11:14:15+0000] [AICP_SCRIPT] [DEBUG] #start VLLM 主节点： source /home/aicp-scripts/patch-vllm-anthropic.sh export HCCL_IF_IP=$vpc_address export GLOO_SOCKET_IFNAME=$calico_address export TP_SOCKET_IFNAME=$calico_address export HCCL_SOCKET_IFNAME=$calico_address export HCCL_BUFFSIZE=1024 export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 export HCCL_OP_EXPANSION_MODE="AIV" export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True export OMP_PROC_BIND=false export OMP_NUM_THREADS=100 export VLLM_USE_V1=1 export VLLM_ASCEND_ENABLE_FLASHCOMM1=1 export HCCL_INTRA_PCIE_ENABLE=1 export HCCL_INTRA_ROCE_ENABLE=0 base_cmd=( "vllm" "serve" "$NEW_MODEL_WEIGHT_PATH" --served-model-name "$NEW_MODEL_NAME" --host 0.0.0.0 --port "$MIE_PORT" --tensor-parallel-size 8 --data-parallel-size 2 --data-parallel-size-local 1 --data-parallel-start-rank 0 --data-parallel-address $vpc_address --data-parallel-rpc-port 2347 --max-num-seqs 128 --max-num-batched-tokens 65536 --gpu-memory-utilization 0.92 --enable-expert-parallel --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY"}' --mm_processor_cache_type="shm" --async-scheduling --additional-config '{"enable_cpu_binding":true}' --enable-auto-tool-choice --tool-call-parser minimax_m2 --reasoning-parser minimax_m2_append_think ) 从节点： source /home/aicp-scripts/patch-vllm-anthropic.sh export HCCL_IF_IP=$vpc_address export GLOO_SOCKET_IFNAME=$calico_address export TP_SOCKET_IFNAME=$calico_address export HCCL_SOCKET_IFNAME=$calico_address export HCCL_BUFFSIZE=1024 export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 export HCCL_OP_EXPANSION_MODE="AIV" export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True export OMP_PROC_BIND=false export OMP_NUM_THREADS=100 export VLLM_USE_V1=1 export VLLM_ASCEND_ENABLE_FLASHCOMM1=1 export HCCL_INTRA_PCIE_ENABLE=1 export HCCL_INTRA_ROCE_ENABLE=0 base_cmd=( "vllm" "serve" "$NEW_MODEL_WEIGHT_PATH" --served-model-name "$NEW_MODEL_NAME" --host 0.0.0.0 --port "$MIE_PORT" --headless --tensor-parallel-size 8 --data-parallel-size 2 --data-parallel-size-local 1 --data-parallel-start-rank 1 --data-parallel-address $HEAD_IP --data-parallel-rpc-port 2347 --max-num-seqs 128 --max-num-batched-tokens 65536 --gpu-memory-utilization 0.92 --enable-expert-parallel --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY"}' --mm_processor_cache_type="shm" --async-scheduling --additional-config '{"enable_cpu_binding":true}' --enable-auto-tool-choice --tool-call-parser minimax_m2 --reasoning-parser minimax_m2_append_think )

🐛 Describe the bug

最终结果为当请求体长度超过32k时，模型报错返回400bad request，报错信息如下图所示(目前已确认与流式与否无关，只于max_tokens设定有关)：

root@nb-596245205267514554-0:/home/jovyan# curl -v -X POST -H 'Content-Type: application/json' http://137.4.6.243:8008/v1/chat/completions -d '{"model": "MiniMax-M2.5","messages": [{"role": "user","content": "hello"}], "temperature": 0.7, "top_p": 0.9, "max_tokens": 32769, "stream": true}' Note: Unnecessary use of -X or --request, POST is already inferred. * Trying 137.4.6.243 8008... * Connected to 137.4.6.243 (137.4.6.243) port 8008 (#0) > POST /v1/chat/completions HTTP/1.1 Host: 137.4.6.243:8008 User-Agent: curl/7.81.0 Accept: */* Content-Type: application/json Content-Length: 142 * Mark bundle as not supporting multiuse < HTTP/1.1 400 Bad Request < date: Fri, 20 Mar 2026 07:58:15 GMT < server: envoy < content-length: 108 < content-type: application/json < x-request-id: 94c6df85-e7b6-9f06-8d8e-85309bd79d1a < x-envoy-upstream-service-time: 3 < * Connection #0 to host 137.4.6.243 left intact {"msg":"Token indices sequence length is longer than the specified maximum sequence length for this model!"]root@nb-596245205267514554-0:/home/jovyan#

初步怀疑可能与拉起模型时未明确说明模型长度有关，但有日志打印说明拉起使用长度为模型本身可适配长度（即192k）：

124 INFO 03-06 11:14:56 [model.py:531] Resolved architecture: MiniMaxM2ForCausalLM 125 ERROR 03-06 11:14:56 [repo_utils.py:65] Error retrieving safetensors: Repo id must be in the form 'repo_name' or 'namespace/repo_name': '/data/'. Use `repo_type` argument if needed., retrying 1 of 2 126 ERROR 03-06 11:14:58 [repo_utils.py:63] Error retrieving safetensors: Repo id must be in the form 'repo_name' or 'namespace/repo_name': '/data/'. Use `repo_type` argument if needed. 127 INFO 03-06 11:14:58 [model.py:1899] Downcasting torch.float32 to torch.bfloat16. 128 INFO 03-06 11:14:58 [model.py:1578] Using max model len 196608 129 WARNING 03-06 11:14:58 [model.py:949] Detected fp8 MiniMax-M2 checkpoint on NPU. Disabling fp8 quantization and loading dequantized bf16 weights instead. 130 INFO 03-06 11:14:58 [scheduler.py:229] Chunked prefill is enabled with max_num_batched_tokens=65536. 131 INFO 03-06 11:14:58 [vllm.py:630] Asynchronous scheduling is enabled. 132 INFO 03-06 11:14:58 [vllm.py:637] Disabling NCCL for DP synchronization when using async scheduling.

目前正在尝试测试中，若未声明拉起服务长度，实际服务长度应该为多少（例如这里背景查到单机含MAX_SEQ_LEN: 16384，实际双机可请求最大长度为32k），是否与日志打印一致。
若日志打印正确，则为什么实际可请求服务长度为32k；若打印错误，则32k是如何如何产生的，是否与双机有关？是否与模型有关？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Bug]: 0.14.0rc1，minimax-2.5，请求体中max_tokens超32k报错返回400 #7535

Your current environment

🐛 Describe the bug

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[Bug]: 0.14.0rc1，minimax-2.5，请求体中max_tokens超32k报错返回400 #7535

Description

Your current environment

🐛 Describe the bug

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions