数据库运维和管理的挑战
业务快速迭代,数据库故障频发
数据库是所有企业业务的基座,企业内的研发、测试、运营、运维等等人员每天都需要对数据库进行操作或者查询,但是使用数据库的人员对数据库的了解程度参差不齐,所以数据库的稳定性不断受到如下问题的挑战:
- 业务发布,产生了大量慢SQL;
- 业务大促,容量预估不足;
- 表结构或者索引设计错误;
- 未经Review的SQL或者表被发布到线上;
缺少数据支撑,问题排查靠“猜”
数据库的问题排查和性能优化一直都是数据库领域的专业问题,但是即使最专业的DBA在面对一些问题的时候,也往往耗费了很长时间,但是仍然无法定位到根因,主要的难点有三个:
- 获取信息难,问题诊断和性能优化都需要依赖于大量的系统数据,甚至是长期的历史数据,只有基于完备的信息才能给出准确的解法;
- 分析信息难,需要多年的经验才能给出准确的解法,也需要多样的场景才能覆盖比较全面的问题类型。经验与场景,一不好传承,二变化较快,三他人理解不易;
- 优化手段难,找出问题了,知道怎么办了,也并不意味着就能马上解决问题,甚至有些解法是要深入到数据库引擎层代码优化,这可不是一朝一夕就能做好。
管理成本高
随着云计算的普及,企业可以更为便捷的根据不同的业务类型,使用不同的数据库,或者将数据库部署在不同的环境中,多环境和多种数据库的管理的挑战也随之而来:
- 精通多种数据库的专业DBA是稀缺人才,招聘难;
- 管理部署在多种环境的多种数据库的难度大;
- 管理经验沉淀和传承的难度大。
数据库的安全风险大
随着数据价值的提升,企业的数据面临着越来越多的内部或者外部的攻击,数据泄漏、数据丢失等问题层出不穷。
全球重大数据泄漏事件几乎每月都有发生,小型泄漏事件更是不胜枚举。
- 未授权或者不可预期或者错误的数据库访问和使用
- 数据泄漏;
- 数据损坏;
- 黑客攻击;
- 软硬件bugs,导致数据异常;
- 误操作导致数据丢失。
我们的解决方案
数据库自治服务(Database Autonomy Service,简称DAS)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助用户消除数据库管理的复杂性及人工操作引发的服务故障,有效保障数据库服务的稳定、安全及高效。
该服务已经在阿里巴巴集团的所有的数据库上验证了2年+,截止到2020年4月:
- 自动优化了 4000万+ 的SQL
- 自动回收了 4 PB的空间
- 自动优化了20%的内存
产品功能
统一管理
对用户本地IDC和云上的数据库进行集中管理,统一监控,节省用户50%以上的管理成本,显著减少操作故障概率。
- 统一监控
通过DAS平台,即可查看所有环境、所有集群、所有实例的性能趋势情况和实时性能情况。- 低成本:用户无需耗费人力开发和部署采集、计算、存储程序,直接使用DAS即可监控数据库。
- 指标丰富:支持数据库各项关键指标的采集、计算和展示。
- 细粒度的监控:支持用户按需设置细粒度的监控,最小支持秒级监控,帮助用户快速发现异常。
- 统一告警
支持云上云下数据库告警规则的自定义、告警信息的发送。- 默认告警模版:基于阿里巴巴的数据库运维经验,为各种数据库引擎定义了默认的告警模版,用户可以直接使用。
- 灵活配置:支持各种告警规则、告警模版、告警联系人、告警联系组的灵活配置,用户可以为企业内不同的使用者定义不同的告警模版。
- 异常发现:自动发现没有定义告警的数据库实例,避免因为告警信息发送不及时,导致业务受损。
自治服务(智能诊断和优化)
基于机器学习和细粒度的监控数据,实现7 * 24小时的异常检测,提供自动SQL限流、异常快照、自动SQL Review和优化、存储空间自动扩展、计算资源自动扩展等功能,从异常发现、根因分析、进行止损/优化、效果跟踪、回滚/沉淀知识库,实现诊断流程的闭环,优化效果可量化,确保数据库持续可用。
我们数据库的自动驾驶能力分为5层:
能力级 | 描述 | 决策主体 | 关键能力 |
---|---|---|---|
Level-0 | 全人工 | 人 | |
Level-1 | 辅助工具、看板 | 人 | 负载信息采集、监控、告警、脚本以及工具支持 |
Level-2 | 输出诊断和优化建议 | 人 + DAS | 异常检测、SQL优化建议、容量评估、健康诊断等 |
Level-3 | 部分场景全自动化 | DAS + 人 | 自动异常修复、自动SQL优化、自动参数配置、自动弹性伸缩等等,少量场景仍然由人做主要决策/动作,系统辅助 |
Level-4 | 自动驾驶 | DAS | 全部场景实现端到端决策,进入自动驾驶模式 |
主要包含如下功能:
- SQL诊断和优化
- 慢SQL分析
- 空间分析
- 性能趋势
- 会话管理
- 全量SQL分析
- 诊断报告
- 7X24小时异常检测
- 自动SQL限流
- 自动SQL优化
- 自动SQL Review和优化
- 容量评估和规格推荐
- 弹性伸缩
企业级数据库服务
- DashboardDAS总结阿里巴巴数据库团队多年的数据库运维和管理经验,提供多种监控场景,跨实例、跨集群、跨环境,跨功能模块的护航大盘、实例大盘等。
- 多环境、多集群管理DAS满足企业管理多套环境多套集群的需求,支持环境级别、集群级别的性能监控指标的聚合和下钻,贴近企业级管理视角。
- 巡检评分DAS支持巡检评分,自动对用户接入DAS的所有数据库实例进行巡检,从基础巡检到SQL、容量、性能、安全等等,并给出健康评分,帮助用户一目了然的确认数据库运行情况。
数据库安全审计
DAS 提供高危SQL识别、SQL注入检测、新增访问来源识别、敏感数据访问发现等等服务,实时检测,全量审计,快速识别数据库异常访问、拖库等行为,有效保障数据库安全。
数据库安全审计包含如下功能:
- SQL注入识别
- 高危SQL识别
- 新增访问来源识别
提示:
DAS 支持MySQL、PG、MongoDB、Redis、PolarDB;
环境支持
环境 | 统一接入 | 统一监控 | 统一告警 | 统一Dashboard |
---|---|---|---|---|
阿里云公共云RDS | 支持 | 支持 | 支持 | 支持 |
阿里云公共云ECS自建数据库 | 支持 | 支持 | 支持 | 支持 |
用户自建IDC MySQL | 支持 | 支持 | 支持 | 支持 |
用户自建IDC Redis | 支持 | 支持 | 支持 | 支持 |
定价
定价 | 超出部分说明 |
---|---|
40元/实例/月 | 套餐中会赠送5GB SQL洞察存储空间(限中国内地Region),超过部分按照0.008/GB/小时收费。 |
购买咨询及优惠请联系科劳得。