「新鲜出炉」的字节面经来咯!
接住!
一面(60分钟)
1、问做过的项目,主要是为冷用户推荐冷资源的场景。
2、esmm结构简述 解决什么问题 怎么解决 为什么这样可以解决esmm两个塔的区别和联系
3、dssm 在这个项目的场景下起的作用(用户冷启动) 为什么效果不好(多样性有问题,用户行为少模型学不到用户真实兴趣)?如果要优化想怎么优化?
4、热门item怎么打压(采样策略)
5、多样性怎么做(说了几种方法,都是为了保证一二级类别占比不超过一定阈值) 所述各有什么优缺点(多样性调整越激烈相关性越差)
6、nlp如何赋能推荐
二面(60分钟)
1、讲项目
2、讲nlp的论文(文本分类)
3、论文中为什么transformer效果不如其他模型(主要是fasttext,结合具体任务分析一下即可)
4、word2vec 和 fasttext的区别?需要使用向量的场景下可不可以用fasttext的向量代替word2vec?(不可以,向量侧重点不同)
5、word2vec两种方式的推导 为什么能做到相似单词向量近(口述一下公式)
6、负采样 负采样如何实现高频item打压(高频词采样)
7、textcnn流程 参数矩阵大小
8、rnn流程 参数矩阵大小?lstm gru 各层激活函数(sigmoid建模各种门,最后是tanh)
9、attention selfattention的kqv是什么?表示的物理意义是什么?他们的维度是多少 ?参数矩阵学的什么?
10、bert结构 为什么用一半的transformer
11、样本不平衡怎么办(有什么比较优雅的解决方式)
最后一道算法题:编辑距离