回答:必须监控的关键指标包括:CPU 使用率与负载(load average)、内存与交换区(swap)使用、磁盘容量与 inode、磁盘 I/O(iops、await)、网络带宽与丢包、网络延迟(RTT/抖动)、进程/线程数、服务端口健康(如80/443/3306)以及应用层性能(响应时间、错误率)。针对使用CN2的台湾VPS,还应关注路由跳数与 BGP 路径稳定性,以判断回国或对大陆访问的链路质量。
回答:把监控分为系统层(CPU/内存/磁盘)、网络层(带宽/丢包/延迟)、应用层(HTTP/DB 响应与错误)以及日志/异常告警(错误频次、异常日志条数),便于快速定位问题范围。
回答:阈值需结合业务和资源预留制定,常用推荐值如下:
回答:CPU 持续 5 分钟 > 80% 触发告警;load average 超过 CPU 核数 * 1.5 同样触发;内存使用 > 85% 或 swap 使用率上升触发;磁盘使用 > 80%(上游备份或扩容前告警),inode 使用 > 70%。
回答:磁盘 i/o wait > 30% 或单盘 await > 50ms 报警;带宽使用 > 80% 持续 2 分钟报警;丢包率 > 1% 或 RTT 较基线增长 50% 报警;对业务敏感的 API 响应时间 > 500ms 或错误率 > 1% 报警。
回答:采集频率根据指标重要性区分:关键指标(CPU、内存、响应时间、带宽)建议 10-30 秒采集;次要指标(磁盘容量、inode、常规日志统计)可 1-5 分钟采集。短期(高分辨率)数据保留 7-15 天,稀疏化后的长期数据(如每5分钟或每小时)保留 6-12 个月,便于趋势分析与容量规划。
回答:若使用自建 Prometheus + Grafana,应合理配置远程存储或时序数据库(TSDB)对接以降低本地存储压力;云监控服务则在保留策略上选择合适套餐以控制成本。
回答:工具上推荐组合使用:Prometheus + node_exporter + mysqld_exporter + blackbox_exporter 搭配 Grafana 做可视化;Zabbix 适合设备与阈值管理;云厂商监控(若为 VPS 提供商)可补充底层指标;外部可用性监测使用 UptimeRobot 或 Pingdom。网络链路可用 MTR、smokeping 做延迟与丢包趋势。
回答:常见报警渠道包括邮件、短信、微信/企业微信、钉钉、Slack、Webhook(接入 PagerDuty 或 OpsGenie),应设置分级告警(P0/P1/P2)和值班/升级流程,确保台湾VPS在夜间或峰值时段仍能迅速响应。
回答:报警策略应包含去抖(例如阈值连续 N 次或持续 T 时间)、多指标关联(如同时出现高 CPU 与高 iowait、或高延迟伴随丢包)和告警抑制(维护窗口、部署窗口抑制)。对云空间资源变更要触发临时抑制计划,避免大量变更期间的误报。
回答:报警消息中要带关键上下文:最近 5 条指标序列、关联主机/进程、最近一次部署时间、常见故障诊断命令(如 top、iostat、ss、mtr),并附上 Grafana 链接与日志样例,能大幅缩短故障恢复时间。