数据库运维和管理的挑战

业务快速迭代,数据库故障频发

数据库是所有企业业务的基座,企业内的研发、测试、运营、运维等等人员每天都需要对数据库进行操作或者查询,但是使用数据库的人员对数据库的了解程度参差不齐,所以数据库的稳定性不断受到如下问题的挑战:

  • 业务发布,产生了大量慢SQL;
  • 业务大促,容量预估不足;
  • 表结构或者索引设计错误;
  • 未经Review的SQL或者表被发布到线上;

缺少数据支撑,问题排查靠“猜”

数据库的问题排查和性能优化一直都是数据库领域的专业问题,但是即使最专业的DBA在面对一些问题的时候,也往往耗费了很长时间,但是仍然无法定位到根因,主要的难点有三个:

  • 获取信息难,问题诊断和性能优化都需要依赖于大量的系统数据,甚至是长期的历史数据,只有基于完备的信息才能给出准确的解法;
  • 分析信息难,需要多年的经验才能给出准确的解法,也需要多样的场景才能覆盖比较全面的问题类型。经验与场景,一不好传承,二变化较快,三他人理解不易;
  • 优化手段难,找出问题了,知道怎么办了,也并不意味着就能马上解决问题,甚至有些解法是要深入到数据库引擎层代码优化,这可不是一朝一夕就能做好。

管理成本高

随着云计算的普及,企业可以更为便捷的根据不同的业务类型,使用不同的数据库,或者将数据库部署在不同的环境中,多环境和多种数据库的管理的挑战也随之而来:

  • 精通多种数据库的专业DBA是稀缺人才,招聘难;
  • 管理部署在多种环境的多种数据库的难度大;
  • 管理经验沉淀和传承的难度大。

数据库的安全风险大

随着数据价值的提升,企业的数据面临着越来越多的内部或者外部的攻击,数据泄漏、数据丢失等问题层出不穷。

全球重大数据泄漏事件几乎每月都有发生,小型泄漏事件更是不胜枚举。

  • 未授权或者不可预期或者错误的数据库访问和使用
  • 数据泄漏;
  • 数据损坏;
  • 黑客攻击;
  • 软硬件bugs,导致数据异常;
  • 误操作导致数据丢失。

我们的解决方案

数据库自治服务(Database Autonomy Service,简称DAS)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助用户消除数据库管理的复杂性及人工操作引发的服务故障,有效保障数据库服务的稳定、安全及高效。

该服务已经在阿里巴巴集团的所有的数据库上验证了2年+,截止到2020年4月:

  • 自动优化了 4000万+ 的SQL
  • 自动回收了 4 PB的空间
  • 自动优化了20%的内存

产品功能

统一管理

对用户本地IDC和云上的数据库进行集中管理,统一监控,节省用户50%以上的管理成本,显著减少操作故障概率。

  • 统一监控
    通过DAS平台,即可查看所有环境、所有集群、所有实例的性能趋势情况和实时性能情况。

    • 低成本:用户无需耗费人力开发和部署采集、计算、存储程序,直接使用DAS即可监控数据库。
    • 指标丰富:支持数据库各项关键指标的采集、计算和展示。
    • 细粒度的监控:支持用户按需设置细粒度的监控,最小支持秒级监控,帮助用户快速发现异常。
  • 统一告警
    支持云上云下数据库告警规则的自定义、告警信息的发送。

    • 默认告警模版:基于阿里巴巴的数据库运维经验,为各种数据库引擎定义了默认的告警模版,用户可以直接使用。
    • 灵活配置:支持各种告警规则、告警模版、告警联系人、告警联系组的灵活配置,用户可以为企业内不同的使用者定义不同的告警模版。
    • 异常发现:自动发现没有定义告警的数据库实例,避免因为告警信息发送不及时,导致业务受损。

自治服务(智能诊断和优化)

基于机器学习和细粒度的监控数据,实现7 * 24小时的异常检测,提供自动SQL限流、异常快照、自动SQL Review和优化、存储空间自动扩展、计算资源自动扩展等功能,从异常发现、根因分析、进行止损/优化、效果跟踪、回滚/沉淀知识库,实现诊断流程的闭环,优化效果可量化,确保数据库持续可用。

我们数据库的自动驾驶能力分为5层:

能力级 描述 决策主体 关键能力
Level-0 全人工
Level-1 辅助工具、看板 负载信息采集、监控、告警、脚本以及工具支持
Level-2 输出诊断和优化建议 人 + DAS 异常检测、SQL优化建议、容量评估、健康诊断等
Level-3 部分场景全自动化 DAS + 人 自动异常修复、自动SQL优化、自动参数配置、自动弹性伸缩等等,少量场景仍然由人做主要决策/动作,系统辅助
Level-4 自动驾驶 DAS 全部场景实现端到端决策,进入自动驾驶模式

主要包含如下功能:

  • SQL诊断和优化
  • 慢SQL分析
  • 空间分析
  • 性能趋势
  • 会话管理
  • 全量SQL分析
  • 诊断报告
  • 7X24小时异常检测
  • 自动SQL限流
  • 自动SQL优化
  • 自动SQL Review和优化
  • 容量评估和规格推荐
  • 弹性伸缩

企业级数据库服务

  • DashboardDAS总结阿里巴巴数据库团队多年的数据库运维和管理经验,提供多种监控场景,跨实例、跨集群、跨环境,跨功能模块的护航大盘、实例大盘等。
  • 多环境、多集群管理DAS满足企业管理多套环境多套集群的需求,支持环境级别、集群级别的性能监控指标的聚合和下钻,贴近企业级管理视角。
  • 巡检评分DAS支持巡检评分,自动对用户接入DAS的所有数据库实例进行巡检,从基础巡检到SQL、容量、性能、安全等等,并给出健康评分,帮助用户一目了然的确认数据库运行情况。

数据库安全审计

DAS 提供高危SQL识别、SQL注入检测、新增访问来源识别、敏感数据访问发现等等服务,实时检测,全量审计,快速识别数据库异常访问、拖库等行为,有效保障数据库安全。

数据库安全审计包含如下功能:

  • SQL注入识别
  • 高危SQL识别
  • 新增访问来源识别

 

提示:

DAS 支持MySQL、PG、MongoDB、Redis、PolarDB;

环境支持

环境 统一接入 统一监控 统一告警 统一Dashboard
阿里云公共云RDS 支持 支持 支持 支持
阿里云公共云ECS自建数据库 支持 支持 支持 支持
用户自建IDC MySQL 支持 支持 支持 支持
用户自建IDC Redis 支持 支持 支持 支持

定价

定价 超出部分说明
40元/实例/月 套餐中会赠送5GB SQL洞察存储空间(限中国内地Region),超过部分按照0.008/GB/小时收费。

购买咨询及优惠请联系科劳得。