浅谈腾讯云自动化运营服务事件云新闻

2018-05-15    来源:未知    编辑:康桥
当前腾讯云CKafka运行规模已经达到了日消息万亿的级别,同时日吞吐量已经达到了PB级别,单集群最高峰值可达数十亿。 在运营云端CKafka不同集群以及如此繁多的节点时候,我们遇到了
 
 
当前腾讯云CKafka运行规模已经达到了日消息万亿的级别,同时日吞吐量已经达到了PB级别,单集群最高峰值可达数十亿。
 
在运营云端CKafka不同集群以及如此繁多的节点时候,我们遇到了的问题可以归纳为以下几点:
1)如何选择云端CKafka版本
2)如何合理的创建分配实例才能实现资源的有效利用
3)怎样实现实例动态升降配
4)如何实现集群的负载均衡
5)怎样合理规划分区的创建、新增以及迁移
 
下文就针对这五个问题分别阐述腾讯云CKafka是如何解决的。
 
多版本生产/消费兼容
 
由于云端面对的用户不同,必然会出现对Kafka不同版本的要求。当前最新Kafka版本已经为1.1.0版本,对于底层存储而言,主要是不同版本会有不同的消息格式。
 
 
 
 
 
提高资源利用率
 
伴随着服务的运营以及越来越多的实例售卖,后端发现集群出现了资源浪费的情况。由于CKafka是按照实例进行售卖,实例售卖又具有两个纬度,分别为带宽与磁盘。每个实例的服务能力会分布在不同节点上,不合理的资源分配将会造成两种资源的浪费。
 
 
 
 
 
用户动态升降配
 
在用户使用CKafka的初期往往会购买一个相对较小的实例进行功能性测试,在完成功能性测试之后会希望进行实例升级以达到生产环境的标准。实例的升降配分为两种情况:其一是实例所在的机器有足够的资源完成本次升级要求,这种情况在节点上直接扣除资源可以完成升级操作。第二种情况是当前实例所在机器资源不足以完成本次实例升级,需要进行实例的迁移才可以完成实例升级。
 
这种情况下,我们会根据迁移后的服务节点数量生成多种迁移方案,每种方案下迁移的代价是不同的。当从少数机器迁移往多数机器时,每个机器所需要的服务能力会更小。迁移的时候,我们第一步会计算每种迁移方案下,应该选择的节点。这个节点的选择由我们前面提到的权值计算方式得出。
 
 
  • 腾讯云教程网
1
3