在金融科技行业从事数据科学工作,需要掌握哪些技术呢?
我以自己的经历,说一下金融科技的技术栈。
01
数据库技术
数据库技术,泛指熟练使用SQL技术,不仅是各种关系型数据库的SQL,还有各种大数据平台的SQL,例如Hive-SQL、Spark-SQL等。 对于SQL技术这块,我们重点要掌握增删改查的四种操作,以及与编程语言的交互。 通过SQL技术,我们可以有效完成如下工作:
- 1 数据的获取和集成
- 2 数据的简单统计与分析
- 3 数据宽表的设计和实现
02
编程技术
编程技术,是指我们至少要熟悉一门编程语言,不管是Python语言,还是R语言或者两者都会。不管Python语言,还是R语言,都可以有效地帮助我们完成数据科学工作流中各个环节的任务。比方说,数据的获取、数据的清洗、数据探索、数据转换、数据分析、数据建模、数据报告等。
若是你用Python语言,你需要掌握这些知识:
- 1 Python语言基础知识,元组、列表、字典,条件逻辑和循环结构,自定义函数和使用,自定义类和使用,文件管理,字符操作,异常处理等。
- 2 Python语言做数据可视化,掌握matplotlib库和seaborn库的使用。
- 3 Python做科学计算,掌握numpy库和scipy库的使用。
- 4 Python做统计分析,掌握statsmodels库的使用。
- 5 Python做数据分析,掌握pandas库的使用。
- 6 Python做机器学习,掌握scikit-learn库的使用。
- 7 Python做评分模型,掌握toad库和scorecardpy库的使用。
- 8 Python做集成树模型,掌握xgboost库,lightgbm库和catboost库的使用。
- 9 Python做数据报告,掌握Jupyter notebook的使用。
- 10 Python与数据库交互,掌握pyodbc库。
若是你用R语言,你需要掌握这些知识:
- 1 R语言基础知识,向量、数据框、列表,条件逻辑和循环结构,自定义函数和使用。
- 2 R做数据科学工作,熟悉tidyverse包。
- 3 R做评分模型,熟悉scorecard包。
- 4 R做集成树模型,熟悉xgboost包,lightgbm包和catboost包。
- 5 R语言数据库交互,掌握RODBC包。
- 6 R语言做数据报告,掌握rmarkdown包和shiny包。
03
学习算法
金融科技行业数据科学工作中,我常用的学习算法。
- 1 逻辑回归算法,五颗星。
- 2 决策树算法,四颗星。
- 3 集成树算法,包括gbdt, xgboost, lightgbm和catboost,四颗星。
- 4 聚类算法,k均值算法和GMM算法,四颗星。
- 5 关联分析,aprior算法,四颗星。
- 6 特征选择算法,过滤式选择、包裹式选择和嵌入式选择。过滤式的缺失率、唯一值率、IV值,包裹式的逐步回归,嵌入式的xgboost的特征重要性,四颗星。
- 7 神经网络算法,三颗星。
- 8 社交网络算法,两颗星。
04
其它技术
金融科技行业数据科学工作,其它技术,罗列如下。
- 1 版本控制技术
- 2 项目管理技术
- 3 Linux系统与云计算技术
- 4 报告撰写和汇报技术
- 5 模块化编程和封装技术
- 6 大数据平台知识
- 7 统计学知识
等。
总之,技术和业务相辅相成,技术服务业务,业务需要技术。
技术和业务可以看作金融科技数据科学人才的“左右手”,我们需要通过持续学习和实践,来促进共同成长和发展,以干出更多有价值和有意义活儿。
技术这个东西,请学以致用,活学活用。
我是陆勤,在金融科技行业从事数据科学工作,也是一名终身学习者。我工作过的内容主要包括数据清洗和准备、风控评分模型、数字营销模型、风控策略分析、数据建模环境构建和维护等。
金融科技专辑
1 金融科技:金融科技与数据科学概述