机器学习/数据挖掘面试总结

2019-09-12 16:53:56 浏览数 (1)

瓜子二手车

一面:

  1. 一上来先是杨辉三角给定行和列输出这个数,很基础的一道题
  2. 开始聊项目,之前做了天池汽车销量的比赛,问了下主要职责,我从刚开始的数据预处理到最后的模型融合都讲了一遍;如何选择一个模型,为什么选择这个模型
  3. 问了决策树,几个决策树的优缺点. ID3, C4.5的区别
  4. 对聚类有没有了解,知道那些聚类? 我只了解k-means, 所以就讲了这个. 聚类算法还有很多,得总结总结
  5. 为了几个SQL语句,给个案例,怎么来实现,基本的select,group by, count,这个确实很基础
  6. 好多不记得了,下次还得面试完即使总结记录

二面:

  1. 问了下一面问的算法题, 然后问一句英文,翻转过来,如何实现?
  2. 还是那个项目,依旧大概介绍了下,问你们是怎么构造特征的,知道第一名是怎么构造的特征吗?第一名确实不知道,只是说了下我们是怎么构造特征的
  3. 项目中提到了LSTM问有没有深入了解?深度学习没怎么看
  4. LR的损失函数怎么写?突然忘了,直接从最大似然估计进行推到损失函数.
  5. 随机森林和GBDT的区别?具体讲下GBDT的构造方式
  6. 如何确定结果是否过拟合?怎么处理过拟合与欠拟合?我提到了正则化,然后又问L1和L2的区别?
  7. 问了一道题至今没搞懂,在一个圆圈里,有无数多个点,均有两个属性,现在使用决策树来进行切分,切6刀,画出图?what........
  8. 你是怎么来学机器学习的,看了哪些书?

链家:

笔试:

现场笔试,2个小时10道编程题,纯手写

  1. 现有5角,2角,1角,例如:输入6角,输出:多少种拼凑法
  2. 大整数相乘
  3. 两个二进制数,求其汉明距离,例如011和101,汉明距离为2
  4. 最小编辑距离算法
  5. 螺旋矩阵,顺时针输出
  6. 给定一个单向链表,要求删除所以重复的数据1->1->2变为1->2
  7. 去除数组中重复次数大于2的数字,返回新数组
  8. 让数组中所有的奇数都放在偶数前面
  9. 给定一个字符串,可以从中删除一些字符,使得剩下的串是一个回文串,如何删除才能使得到的回文串最长. 例如:abcda 输出2, google输出2
  10. 忘记(what........)

一面:

  1. 1分钟自我介绍,直接问项目,从刚开始做到最后,全部讲一遍,面试官会打断我,然后问一些问题
  2. 如何清理数据,遇到缺失值怎么处理?以及各种填充方法的使用场景?
  3. 如何构造特征,这个特征所表达怎样的含义?
  4. 对于特征选择,你都用了哪些方法?三种常见的做法是哪些?特征选择
  5. 有哪些常用评价指标?AUC、Precision、Recall、F-measure、Accuracy、mse、mlse
  6. 又是提到了LSTM,对深度学习了解多少?
  7. GBDT和xgboost的区别?为什么xgboost比GBDT快?这里问的比较细,建议看下构造过程

华为 :

华为走的内推直接进行面试

一面:

  1. 问了下平时用的语言,我主要用的python,java也会用的,python用过哪些库
  2. 说一个你最熟悉的项目,说的是天池大赛汽车销量那个。问到了最终方案,我说用的xgboost(果然让我把xgboost原理讲了一遍,不过这次让我推到出来,我就从决策树开始推,然后提升树,梯度提升树,再到xgboost)。
  3. 说说你这个比赛与其他人比有哪些优势或者不同之处。提到了特征选择和特征构造,以及用不同的特征训练多个模型增加模型的鲁棒性。
  4. 正则化的原理,如何控制模型过拟合的

一面基本从项目里面提问,所有所写项目务必全部吃透,例如为何用这个模型,和其它的模型的区别,为什么不选用其它模型。

二面(综合面):

  1. 本科学习情况,研究生学习情况
  2. 未来规划,实习地方的期望
  3. 会用C/C 吗
  4. 兴趣爱好
  5. 我们公司会很辛苦的
  6. balabala......

再次发现很多不足之处,xgboost需多啃几遍!

后续还会补充其它面试分享

推荐阅读

Betten:机器学习面试干货精讲

0 人点赞