Capital One DS OA |New Grad网测复盘 + 高频Simulation题型解析

55次閱讀
No Comments

最近不少同学陆续收到了 Capital One Data Scientist New Grad 的 OA。整体来看难度不高:前两题偏 easy,主要考察基础数据处理与逻辑;后两题多为 simulation,需要根据一系列操作推演最终状态,更考验建模思维和细节把控。下面就分享本次 Capital One DS OA 的真题类型和核心考察点,帮助大家提前建立思路,避免被 simulation 题拖慢节奏。

第 1 问:基础数据分析 + CSV 输出

第 1 问:基础数据分析 + CSV 输出

要求

  • 读取司机(drivers.csv)和多份行程数据(rides_1.csv ~ rides_4.csv);
  • 做基础数据清洗;
  • 合并与统计;
  • 将分析结果保存为 CSV 文件。

解题思路

  1. 读取司机数据,计算评分均值和掌握第二语言司机的占比。
  2. 合并四份订单数据,计算成功状态订单的占比。
  3. 构造结果数据并完成保存。

第 2 问:时间特征 + 扩展字段分析

第 2 问:时间特征 + 扩展字段分析

要求

数据时间点固定为 2023-04-15、在 drivers.csv 中引入更多字段(如 started_driving_year)、基于 “今天” 计算时间衍生特征(如驾龄)。

解题思路

  1. 以 2023-04-15 为基准,处理车辆表得到检验间隔天数,处理司机表算出工龄。
  2. 合并四份订单表,按司机 ID 分组统计总点赞数。
  3. 以司机表为主表左连接车辆、订单处理后的数据,空点赞数填 0。
  4. 按要求整理列顺序并保存结果。

第 3 问:司机画像 / 性能指标数据集构建

要求

给定一个已整理好的司机性能数据集、理解每个字段的业务含义、不再是 “算指标”,而是需要理解题目。

解题思路

  1. 仅用训练集计算均值,填充训练集和测试集的年龄缺失值并取整。
  2. 基于训练集做类别编码,训练集无的新类别统一编为 – 1。
  3. 用训练集的均值和标准差标准化小费净值,训练集和测试集共用该参数。
  4. 对司机等级做固定编码,按要求保存数据并限定小费净值保留 5 位小数。

第 4 问:机器学习分类任务

第 4 问:机器学习分类任务

要求

基于前一问清洗后的数据、训练模型预测司机的 driver_class(0/1)、B 类(1)为正类、在保证 precision 不太低的前提下最大化 recall。

解题思路

  1. 读取训练、验证、测试数据,剔除无关的 ID 列。
  2. 合并训练和验证集,分离特征和目标变量司机等级。
  3. 用带平衡类别权重的随机森林分类器训练全量数据。
  4. 用训练好的模型预测测试集,按要求保存司机等级结果。

C1 DS OA不想翻车?

如果你最近也收到了 Capital One DS OA,建议提前熟悉高频题型,尤其是 simulation 这种特别容易耗时间的题。很多人不是不会做,而是中途卡住,节奏一乱就很难写完。

我们这边一直在整理北美大厂的 OA 真题和高频模型,对 C1 的出题方向也比较熟。如果想更稳一点,或者不想因为一次网测影响后续面试,也可以来了解一下 OA 辅助支持 ,帮你在关键点少走弯路。已经有不少同学顺利推进到下一轮。

author avatar
Jory Wang Amazon资深软件开发工程师
Amazon 资深工程师,专注 基础设施核心系统研发,在系统可扩展性、可靠性及成本优化方面具备丰富实战经验。 目前聚焦 FAANG SDE 面试辅导,一年内助力 30+ 位候选人成功斩获 L5 / L6 Offer。
正文完
 0