数据采集:使用ETL等工具采集数据、文件数据和接口数据,并进行格式转换。数据处理:离线数据处理:编写SQL并利用Hive等进行数据处理。实时数据处理:利用Kafka、Spark、Flink等组件进行实时数据处理。数据分析:进行行业数据分析,编写大数据核心算法,参与项目需求分析、系统设计和编码工作。数据可视化:使用echarts等工具制作可视化报表,搭建商业智能平台。平台开发:开发大数据平台,整合开源组件,支持各种数据源的接入和清洗。系统维护:维护大数据平台,如监控Hadoop集群,确保系统稳定运行。技能要求1.5年以上的大数据开发经验;2.具备大数据离线、实时数仓开发经验或者数据湖开发经验。3.熟悉Hdfs、Hive、yarn、spark、flink等框架原理;4.扎实的大数据流式处理经验,如Flink、kafka、spark等流式大数据计算及运维经验;5.堂握doris/StarRocks/ClickHouse/ES等OLAP引擎一种以上;6.熟悉数据治理,从事过治理相关工作、理解数据治理的重要性;7.具备较强的编程能力和编程经验,至少熟悉Java/Scala-门编程语言;8.具备一定的数据分析能力,具备数据敏感性和探知欲,专注数据的价值发现和转化;9.具备快速学习能力、沟通协调能力及团队精神,有较强的责任心和学习积极性;10.对新技术如数据湖、湖仓一体、流批一体等技术有一定了解优先;11.熟悉spark、flink等开源组件源码或者有二开经验的优先
联系我时,请说是在58同城上看到的,谢谢!