Crest 文档
运维维护

日志与健康检查

Crest 服务状态、日志排查、导出中心和审计日志检查方法。

日志和健康检查用于判断 Crest 是否稳定运行,也用于定位登录失败、数据查询失败、导出失败、SSO 异常和权限问题。建议把服务状态、应用日志、数据库状态和用户侧页面检查结合起来看。

健康检查不能只确认服务是否 Running。可用性检查应覆盖登录、权限、数据查询、后台任务、导出、审计和页面访问。对于 BI 系统,即使服务进程运行,只要数据源不可用、导出失败或权限异常,业务侧仍不可用。

服务状态检查

单机部署可先执行:

crestctl status

重点看:

项目正常表现
容器状态crestcrest-servicemysql-crest 和可选监控组件处于运行状态
端口对外访问端口正常监听
启动时间没有频繁重启
日志没有持续刷屏的错误
磁盘运行目录、日志目录和备份目录空间充足

Crest v1.5.7 单机部署默认包含前端网关 crest、后端服务 crest-service 和元数据库 mysql-crest。启用监控后,还会出现 crest-prometheuscrest-grafana

Kubernetes 部署可检查:

kubectl get pods -n crest
kubectl get svc -n crest
kubectl logs -n crest deploy/crest-service --tail=200
kubectl logs -n crest deploy/crest --tail=200

如果部署时使用了不同命名空间,请把示例中的 crest 替换成实际命名空间。排查时建议同时查看 Pod 事件和应用日志:事件能说明镜像拉取、调度、探针和挂载问题,应用日志能说明数据库、权限、接口和业务异常。

应用日志排查

日志排查建议按时间线进行:

  1. 用户反馈的具体时间。
  2. 用户账号、资源名称、页面地址。
  3. 对应服务日志。
  4. 数据库日志或慢 SQL。
  5. 浏览器控制台或网络请求。
  6. 审计日志中的操作记录。

常见关键字:

关键字可能方向
ERROR应用异常
Exception后端处理异常
timeout查询、导出、网络或数据库超时
permission权限不足
unauthorized登录或认证异常
database数据库连接或 SQL 异常
export导出任务异常

健康端点

v1.5.7 的健康端点分为前端网关和后端服务两类:

端点说明
/healthz前端 Nginx 网关健康检查,返回 204 表示网关可用
/api/v1/actuator/health/liveness后端存活检查,用于判断进程是否存活
/api/v1/actuator/health/readiness后端就绪检查,会校验数据库连接,适合发布后和流量接入前验证

单机安装后可以通过对外端口验证:

curl -sSI http://127.0.0.1:8100/healthz
curl -sS http://127.0.0.1:8100/api/v1/actuator/health/liveness
curl -sS http://127.0.0.1:8100/api/v1/actuator/health/readiness

liveness 成功表示后端进程可响应;readiness 成功表示后端已经具备基本服务能力。

导出中心检查

入口:顶部菜单或系统入口 → 导出中心。

导出中心

导出中心页适合判断后台任务是否健康。图中要重点看任务状态、导出对象、提交时间、失败原因和操作按钮。大量任务停留在等待中,通常说明后台任务积压;大量失败则要回到数据源、数据集或文件目录权限排查。

导出中心适合排查文件生成失败、下载失败和用户重复提交问题。

状态说明处理建议
等待中任务已提交,尚未执行检查后台任务是否积压
执行中正在生成文件观察耗时和资源占用
成功文件已生成测试下载,检查文件内容
失败任务生成失败查看错误信息和应用日志

如果导出任务持续失败,优先检查:

  • 数据集查询是否正常。
  • 图表或仪表盘是否可以打开。
  • 导出文件目录是否有写入权限。
  • 磁盘空间是否不足。
  • 代理超时是否过短。

导出中心截图也适合判断问题范围。如果只有某个资源导出失败,通常与该资源的数据集、图表或字体有关;如果所有导出都失败,优先检查后台任务、文件目录权限和磁盘空间。

审计日志检查

入口:系统管理 → 审计日志。

审计日志

审计日志页适合将用户反馈与系统操作对齐到同一条时间线。排查时先锁定用户反馈时间,再查看登录、权限、资源、分享、导出和系统配置相关操作。除应用日志外,还应结合审计日志;部分“系统异常”实际来自权限或资源变更。

审计日志用于追踪管理员、用户、资源和配置变更行为。排查问题时建议按账号、时间和操作类型筛选。

常见用途:

场景查看内容
用户无法登录登录失败、密码修改、账号禁用
资源突然不可见角色、权限、组织和资源授权变更
分享链接异常分享创建、关闭、修改记录
配置异常系统参数、站点、SSO、字体变更
数据异常数据源、数据集和资源编辑记录

健康检查清单

建议每天至少完成一次轻量巡检:

  1. 登录管理员账号。
  2. 打开工作台,确认资源统计正常。
  3. 打开一个数据源,执行连接测试。
  4. 打开一个数据集,执行预览。
  5. 打开一个仪表盘,确认图表渲染。
  6. 打开一个数据大屏,确认预览页面可用。
  7. 查看导出中心,确认没有大量失败任务。
  8. 查看审计日志,确认没有异常登录或异常配置变更。

巡检结果建议简要记录,包含日期、检查人、异常项和处理结果。若连续多日出现同类异常,应纳入性能、容量或权限治理范围。

告警建议

正式环境建议接入企业监控平台,对以下指标配置告警:

  • 服务不可用。
  • 容器频繁重启。
  • CPU、内存持续过高。
  • 磁盘空间不足。
  • 数据库连接失败。
  • 导出失败率异常。
  • 登录失败次数异常。
  • 关键日志错误数量异常。

Crest v1.5.4 起已提供 Prometheus 指标和 Grafana 看板,启用方式见 监控与可观测性