日志与健康检查

日志和健康检查用于判断 Crest 是否稳定运行，也用于定位登录失败、数据查询失败、导出失败、SSO 异常和权限问题。建议把服务状态、应用日志、数据库状态和用户侧页面检查结合起来看。

健康检查不能只确认服务是否 Running。可用性检查应覆盖登录、权限、数据查询、后台任务、导出、审计和页面访问。对于 BI 系统，即使服务进程运行，只要数据源不可用、导出失败或权限异常，业务侧仍不可用。

服务状态检查

单机部署可先执行：

crestctl status

重点看：

项目	正常表现
容器状态	`crest`、`crest-service`、`mysql-crest` 和可选监控组件处于运行状态
端口	对外访问端口正常监听
启动时间	没有频繁重启
日志	没有持续刷屏的错误
磁盘	运行目录、日志目录和备份目录空间充足

Crest v1.5.7 单机部署默认包含前端网关 crest、后端服务 crest-service 和元数据库 mysql-crest。启用监控后，还会出现 crest-prometheus 和 crest-grafana。

Kubernetes 部署可检查：

kubectl get pods -n crest
kubectl get svc -n crest
kubectl logs -n crest deploy/crest-service --tail=200
kubectl logs -n crest deploy/crest --tail=200

如果部署时使用了不同命名空间，请把示例中的 crest 替换成实际命名空间。排查时建议同时查看 Pod 事件和应用日志：事件能说明镜像拉取、调度、探针和挂载问题，应用日志能说明数据库、权限、接口和业务异常。

应用日志排查

日志排查建议按时间线进行：

用户反馈的具体时间。
用户账号、资源名称、页面地址。
对应服务日志。
数据库日志或慢 SQL。
浏览器控制台或网络请求。
审计日志中的操作记录。

常见关键字：

关键字	可能方向
`ERROR`	应用异常
`Exception`	后端处理异常
`timeout`	查询、导出、网络或数据库超时
`permission`	权限不足
`unauthorized`	登录或认证异常
`database`	数据库连接或 SQL 异常
`export`	导出任务异常

健康端点

v1.5.7 的健康端点分为前端网关和后端服务两类：

端点	说明
`/healthz`	前端 Nginx 网关健康检查，返回 `204` 表示网关可用
`/api/v1/actuator/health/liveness`	后端存活检查，用于判断进程是否存活
`/api/v1/actuator/health/readiness`	后端就绪检查，会校验数据库连接，适合发布后和流量接入前验证

单机安装后可以通过对外端口验证：

curl -sSI http://127.0.0.1:8100/healthz
curl -sS http://127.0.0.1:8100/api/v1/actuator/health/liveness
curl -sS http://127.0.0.1:8100/api/v1/actuator/health/readiness

liveness 成功表示后端进程可响应；readiness 成功表示后端已经具备基本服务能力。

导出中心检查

入口：顶部菜单或系统入口 → 导出中心。

导出中心

导出中心页适合判断后台任务是否健康。图中要重点看任务状态、导出对象、提交时间、失败原因和操作按钮。大量任务停留在等待中，通常说明后台任务积压；大量失败则要回到数据源、数据集或文件目录权限排查。

导出中心适合排查文件生成失败、下载失败和用户重复提交问题。

状态	说明	处理建议
等待中	任务已提交，尚未执行	检查后台任务是否积压
执行中	正在生成文件	观察耗时和资源占用
成功	文件已生成	测试下载，检查文件内容
失败	任务生成失败	查看错误信息和应用日志

如果导出任务持续失败，优先检查：

数据集查询是否正常。
图表或仪表盘是否可以打开。
导出文件目录是否有写入权限。
磁盘空间是否不足。
代理超时是否过短。

导出中心截图也适合判断问题范围。如果只有某个资源导出失败，通常与该资源的数据集、图表或字体有关；如果所有导出都失败，优先检查后台任务、文件目录权限和磁盘空间。

审计日志检查

入口：系统管理 → 审计日志。

审计日志

审计日志页适合将用户反馈与系统操作对齐到同一条时间线。排查时先锁定用户反馈时间，再查看登录、权限、资源、分享、导出和系统配置相关操作。除应用日志外，还应结合审计日志；部分“系统异常”实际来自权限或资源变更。

审计日志用于追踪管理员、用户、资源和配置变更行为。排查问题时建议按账号、时间和操作类型筛选。

常见用途：

场景	查看内容
用户无法登录	登录失败、密码修改、账号禁用
资源突然不可见	角色、权限、组织和资源授权变更
分享链接异常	分享创建、关闭、修改记录
配置异常	系统参数、站点、SSO、字体变更
数据异常	数据源、数据集和资源编辑记录

健康检查清单

建议每天至少完成一次轻量巡检：

登录管理员账号。
打开工作台，确认资源统计正常。
打开一个数据源，执行连接测试。
打开一个数据集，执行预览。
打开一个仪表盘，确认图表渲染。
打开一个数据大屏，确认预览页面可用。
查看导出中心，确认没有大量失败任务。
查看审计日志，确认没有异常登录或异常配置变更。

巡检结果建议简要记录，包含日期、检查人、异常项和处理结果。若连续多日出现同类异常，应纳入性能、容量或权限治理范围。

告警建议

正式环境建议接入企业监控平台，对以下指标配置告警：

服务不可用。
容器频繁重启。
CPU、内存持续过高。
磁盘空间不足。
数据库连接失败。
导出失败率异常。
登录失败次数异常。
关键日志错误数量异常。

Crest v1.5.4 起已提供 Prometheus 指标和 Grafana 看板，启用方式见监控与可观测性。