职位要求:
工作职责:
你将参与知乎分布式网络爬虫系统的架构设计和研发你将会接触到数据采集、任务调度和抽取算法相关的技术你将基于用户行为、内容属性等数据,挖掘和提取有意义的信息并得出结论,并设计合理的指标与维度,为公司提供数据支持和建议
任职资格:
-计算机基础知识扎实,包括不限定于操作系统、计算机网络、数据结构和算法熟悉 Python、Java 等至少一门语言,
-熟悉 Dubbo、Redis、MQ、ZK 等分布式系统的设计和应用理解常见并发模型和场景、对 IO、多线程、集合基础框架等有扎实理解精通网页抓取原理及技术
-精通正则表达式,精通SQL
-可以从结构化的和非结构化的数据中获取信息有 Scrapy / Pyspider / Nutch / Heritrix 框架的使用经验或自己手写过类似框架
加分项:
-熟悉Hadoop并行计算框架
-有 Storm/Spark streaming/Flink 等分布式流计算经验者优先对数据敏感
-具备良好的逻辑思维能力以及优秀的问题解决能力者优先在互联网反作弊、反欺诈、数据分析、竞品分析等方面有工作经验者优先
-对开源技术有强烈的兴趣和爱好,提交过 bug 或 patch 者优先