一、监控四大核心指标缺一不可·队列积压量queue.size()最核心信号持续 5000 即告警。·活跃线程数activeCount若长期等于核心数说明负载打满。·任务拒绝数rejectedCount 0 必须立刻扩容这是业务受损的直接证据。·任务平均等待时间从入队到执行的延迟比积压量更能反映用户体验。二、扩缩容决策阈值黄金法则第一步看CPU超过80%直接熔断禁止扩容。第二步看队列和拒绝数如果队列满了或有拒绝我会扩容。第三步分情况如果只是老任务积压我优先扩核心线程去清淤如果担心有新任务被拒绝我先扩最大线程做兜底再慢慢扩核心。扩的时候都是小步调参观察10秒再继续。第四步缩容只有队列持续为空且响应正常时我才慢慢缩核心让线程自己超时死掉绝不暴力回收。”三、生产级建议· 自动化闭环用 Apollo/Nacos 配置中心 Prometheus 监控编写脚本基于阈值自动调用 setCorePoolSize。· 人工兜底自动化只做 10~20% 的微调大幅度调整必须人工审批。