Zhengtianbao's Blog

Spark submit python wordcount on yarn cluster mode

最近这段时间补习了下 Spark 相关的知识点,也纠正了之前不少错误的理解,总的来说实践出真理,只有动手才能更好的理解。这篇文章主要记录第一次使用 spark 结合 hadoop 跑 python 程序的过程,算是大数据学习的起点吧。 Spark 的运行模式 官网上已经很详细的介绍了几种模式,我就总结下: 1. Local 由于本地资源有限,用于开发测试用,验证代码。 2. Sta...

Zabbix 数据库磁盘占用空间计算

针对线上 Zabbix 所需数据库磁盘占用空间进行了一个简单的计算。 计算公式 定义: 被监控服务器数为:n(台) 每台被监控服务器监控项为:m(个) 监控项更新间隔平均值约为:f1(秒) 监控项历史数据保留时长为:t1(秒) 监控项趋势存储时间为:t2(秒) 一条MySQL记录占用字节数为:x(B) 已知: 趋势数据每小时生成一次,即趋势数据更新间隔 f2 = 3600...

Libvirt 磁盘 IO 限速

随着公司开发业务的不断增重,Dell 服务器上的虚拟机日益增多,而虚拟机磁盘却都压在物理服务器单块raid 磁盘上共享 IO。考虑到某台虚拟机将要部署爬虫业务,可能占用大量 IO,因此防患与未然,限制其虚拟机的磁盘 IO,以免影响其他虚拟机或者宿主机的正常读写。 鉴于我的经验以及公司运维团队规模,部署的是 KVM 虚拟化,通过 Libvirt 管理虚机,网络是桥接模式的 flat netw...

Add new segment to greenplum cluster

在生产环境中,因为数据量的增加,存在动态扩容 greenplum 存储容量的需求。 纵向扩容指在现有服务器上增加配置,如增加磁盘,增加内存等,因为在集群初始化部署规划中就已经考虑到了服务器各资源的配置,一般而言多用于测试环境。 横向扩容指增加服务器节点,这在分布式存储系统上是通用解决方案,如 hdfs,ceph 等都能做到横向动态扩容。 本文续接上文:greenplum 部署 因此环境...