2022年算法工作总结

总结下2022年工作中的收获

这是常识，但是还是踩过这些雷

分析用户特征和留存的关系时，使用了 dtale 这个包来手动分析，这个包可视化还挺好的，但是我面对的是很多种组合分析，手动点鼠标要累死我啊

后面果断放弃，使用 pandas groupby 分组 agg 聚合聚合函数，写代码一劳永逸，省时省力

做一个demo项目展示，我不懂前端，用的最原始的 html 模板 jinjia渲染模板 FastAPI框架，用户请求时，根据表单输入去 redis 里 get 数据

demo 打开了大家的思路，大家说想要看更多的时间段的数据，redis 存储不下了，消耗的内存非常大，咨询大数据的同事也说，这是不可行的，内存很贵的，推荐我使用 ES 存储，ES可以弹性伸缩，存储是放在磁盘里的，磁盘存储很便宜

查询条件中避免 in (里面一大堆具体的数值)，sql 可能有长度限制，查询效率也低，不过 in 本身的效率就低，也要减少使用
多表 join 之前，先对单个表把需要的字段和数据单位用 where 限制住，尤其是有分区的表，把分区指定好，减少数据的规模，查询效率会高一些。不然hive查询非常慢，还说不定告诉你 hive 节点内存不足，查询失败
尽量使用 group by 去重，而不是 distinct
hive 查询失败了要有重试机制

今年学习（抄书）不多，陆续抄了些 pyqt、react、python高性能方面的、Rasa、Es 方面的知识，单就书而言，都没有完整系统的学完，也没有实践经验

深度学习方面跟进的不多，仅限于看看公众号的文章，不深入，也没有实践代码

0 人点赞