去哪儿网数据挖掘实习面经

less than 1 minute read

Published:

面试基本信息

在公司直接面试,不需要用电脑,但还是技术面试+HR面,技术面试40分钟左右,HR面试20分钟左右

流程

  • 自我介绍,讲一段最核心的项目
    • 分别从业务背景、我承担的角色和完成的工作、取得的结果几个方面来讲
  • 做题(手写伪代码)
  • 关于简历提问项目相关的问题
  • 反向提问(介绍岗位)

  • HR面试(主要是对着简历详细问,几乎每一项都问了)
    • 前几段实习的初衷
    • 为什么申请出国又回来了
    • 刚才面试官聊得如何
    • 为啥介绍那一段核心的项目,而不是最近的一段
    • 我的职业规划是什么
    • 以前工作中的困难与积累的能力
    • 三个胜任这个工作的能力
    • 同时在申请有面试的其他公司岗位,有没有偏好
    • 出勤时间和薪资等基本问题

伪代码题目

python 算法

比较实际的业务场景,有若干个城市,不同城市之间有航线和航线价格,找出所有可能互相通的一对城市之间最低的航线价格。除了二重遍历,有什么好方法复杂度低一些?

提示:可以从各个方面优化,包括储存结构(树结构、链表等等)

由于航线价格会有变动,什么情况下用BFS更新,什么情况下用DFS更新

SQL

表中有dep, arr, date, dep_time, is_normal几个字段,每一行表示一个航班信息,计算每个航班过去7天/30天/160天的延误率。

进阶:如果要看一段时间内(例如30天内的航班),每个航班过去7天的延误率呢?

使用by_partition函数,这里不是特别清楚,和面试官有讨论

整体而言,气氛比较轻松(可能是我脸皮厚),对于问题和场景不明确的地方随时沟通。

简历

  1. 虽然我做的深度学习相关比较多,但是公司里的场景主要是和刚才两道题比较相关的,所以DL用不太到,反而是hadoop/spark/mapreduce比较多。如果线下测试或只是出报告,不会要求编程语言,如果上线部署,肯定是python
  2. 关于实习经历中和用户特征画像相关的部分有更进一步的讨论

反向提问

一个是问刚才做题部分有个不太清楚的地方,请面试官更详细讲了一下。另一个是工作的主要内容。