我们正在寻找一名资深的大数据运维工程师,您将负责核心数据平台的建设、维护和优化工作。您的核心职责是保障包括MySQL、Elasticsearch、Apache Doris、ClickHouse等在内的大数据组件和集群的高可用性、高性能和高可扩展性,通过自动化和智能化手段提升数据平台的稳定性和运维效率。
主要工作职责:
1、大数据平台运维与保障:
负责数据平台核心组件(MySQL, Elasticsearch, Apache Doris, ClickHouse等)的部署、配置、监控、性能调优、故障排除和日常运维。
设计并实施大数据集群的高可用方案、容灾备份策略和数据恢复方案,确保数据安全和业务连续性。
持续监控集群健康状况,分析性能瓶颈,提出并实施优化方案,提升数据平台整体的稳定性、吞吐量和查询效率。
负责集群的容量规划、扩缩容操作,确保资源满足业务增长需求。
2、数据库/数据仓库专项维护:
MySQL: 负责关系型数据库集群的维护、优化、备份恢复等。
Elasticsearch: 负责搜索和日志分析集群的维护、索引优化、查询性能调优等。
Apache Doris / ClickHouse: 负责OLAP数据仓库集群的维护、数据导入导出、查询优化、存储优化、集群性能调优等。
深入理解上述数据组件的原理,能够诊断和解决复杂的技术问题。
3、自动化与平台化建设:
使用Python/Go/Shell等脚本语言开发自动化运维工具和平台,提升大数据组件的部署、监控、管理和维护效率。
推动和建设大数据平台的可观测性体系,包括日志、监控、告警等(如Prometheus, Grafana, ELK)。
参与或主导大数据运维相关流程和规范的制定与实施。
4、故障响应与问题解决:
作为大数据平台故障处理的核心人员,快速响应并解决线上紧急问题,编写故障报告并推动改进。
与数据开发、应用研发等团队紧密合作,提供数据存储和查询方面的技术支持和咨询。
任职要求:
1、学历与经验:
计算机、大数据或相关专业本科及以上学历,3年以上大数据平台运维或相关经验。
有海量数据、高并发场景下大数据平台运维经验者优先。
2、大数据技术栈:
精通MySQL集群的运维管理、性能优化、高可用架构。
精通Elasticsearch集群的部署、运维、性能调优(索引、查询、集群参数)、监控和故障排除。
精通Apache Doris 和/或 ClickHouse 的集群部署、运维、性能调优(表设计、查询优化、集群参数)、数据导入、监控和故障排除。
熟悉上述至少两种大数据组件的内部原理、架构和最佳实践。
了解Hadoop生态(HDFS, YARN, MapReduce, Hive, Spark等)者优先。
3、基础与平台技能:
精通Linux操作系统原理及常用命令,熟悉网络协议(TCP/IP, HTTP等)。
熟悉Docker容器技术和Kubernetes编排平台,有在K8s上部署和运维大数据组件经验者优先。
熟悉常用的监控告警系统(如Prometheus, Grafana, ELK, Zabbix)的部署和维护。
4、开发与自动化技能:
熟练掌握Python/Shell编程,具备良好的脚本开发能力,能够独立开发运维工具。有Go语言开发经验者加分。
具备较强的自动化运维理念和实践经验,熟悉Ansible, SaltStack, Terraform等自动化配置管理工具者优先。
5、软技能:
强烈的责任心和owner意识,具备优秀的故障排查和问题解决能力。
良好的沟通协调能力和团队合作精神,能够承受工作压力。
对新技术有浓厚兴趣,具备快速学习和应用新知识的能力。
6、加分项:
有网络空间测绘、安全产品或大规模搜索引擎后端数据平台运维经验者优先。
对数据治理、数据安全有实践经验。
有大规模数据迁移经验。
熟悉流处理平台(如Kafka, Flink, Spark Streaming)的运维经验。
有公有云(AWS, 阿里云, 腾讯云等)大数据服务使用和运维经验。
对分布式系统理论有深入理解。