岗位职责1.负责设计、搭建和维护基于Kubernetes的容器化平台,保障生产环境高可用性,包括多Master集群的部署与优化。2.使用Ansible等自动化工具实现基础设施的自动化部署、配置管理及服务编排,中间件集群部署。3.参与数据管道(如Airflow、DolphinScheduler)的设计与维护,优化任务调度及数据处理流程。4.开发和维护CI/CD工具链(Jenkins、GitLabCI/CD等),实现代码构建、测试、部署的全流程自动化。5.设计与实施监控告警体系(Prometheus/Grafana)及日志分析系统(ELK/ClickHouse),保障系统稳定性和可观测性。6.编写和维护技术文档(Markdown),包括部署手册、故障排查指南及运维规范。7.积极学习相应的热门技术获得成长,参与云平台资源管理及成本优化,推动云原生技术落地。8.响应生产环境故障,进行根因分析并推动改进方案。9.熟悉公司业务场景,熟悉分布式架构、微服务架构、SOA共享服务,制定运维规范(安全、操作管理等相关标准)。任职条件6年以上微服务全链路运维经验,2年以上云原生运维经验精通Kubernetes架构及核心组件(Pod/Deployment/Service/Ingress),有独立搭建多Master集群的经验。精通分布式存储技术(Longhorn、Ceph、Minio),与容器卷持久化并能保障数据安全熟悉TCP/IP、HTTP等协议,熟悉分布式架构、微服务架构(SpringCloudAlibaba)、SOA共享服务熟悉中间件部署(如:Redis、MySQL、EFK、RocketMQ、Gitlab、Nginx、Jenkins)熟练掌握Ansible等自动化工具,具备复杂场景下的实践经验。熟悉Linux操作系统及Shell脚本编写,能够快速定位系统级问题。至少掌握一门编程语言(Java/Python/Go优先),具备开发运维工具或自动化脚本的能力。熟悉CI/CD工具(Jenkins/GitLabCI/CD),了解Pipeline设计与优化。熟练使用Prometheus、Grafana等监控工具,具备自定义指标和告警规则的能力。熟悉ELK(Elasticsearch/Logstash/Kibana)或ClickHouse日志系统的搭建与维护。有云平台(AWS/Azure/GCP)实战经验,熟悉云原生技术栈(如Server*s、对象存储等)。熟悉Airflow、DolphinScheduler等数据管道工具,了解DAG调度原理及任务优化方法。具备优秀的文档编写能力,能输出清晰的技术文档及故障分析报告。强烈的责任心和抗压能力,能够高效处理线上紧急问题。良好的沟通能力,能够协同开发、测试及业务团队推动技术方案落地。有大数据flink、doris经验优先
联系我时,请说是在58同城上看到的,谢谢!