最近不少同学陆续收到了 Capital One Data Scientist New Grad 的 OA。整体来看难度不高:前两题偏 easy,主要考察基础数据处理与逻辑;后两题多为 simulation,需要根据一系列操作推演最终状态,更考验建模思维和细节把控。下面就分享本次 Capital One DS OA 的真题类型和核心考察点,帮助大家提前建立思路,避免被 simulation 题拖慢节奏。
第 1 问:基础数据分析 + CSV 输出
要求:
- 读取司机(drivers.csv)和多份行程数据(rides_1.csv ~ rides_4.csv);
- 做基础数据清洗;
- 合并与统计;
- 将分析结果保存为 CSV 文件。
解题思路:
- 读取司机数据,计算评分均值和掌握第二语言司机的占比。
- 合并四份订单数据,计算成功状态订单的占比。
- 构造结果数据并完成保存。
第 2 问:时间特征 + 扩展字段分析
要求:
数据时间点固定为 2023-04-15、在 drivers.csv 中引入更多字段(如 started_driving_year)、基于 “今天” 计算时间衍生特征(如驾龄)。
解题思路:
- 以 2023-04-15 为基准,处理车辆表得到检验间隔天数,处理司机表算出工龄。
- 合并四份订单表,按司机 ID 分组统计总点赞数。
- 以司机表为主表左连接车辆、订单处理后的数据,空点赞数填 0。
- 按要求整理列顺序并保存结果。
第 3 问:司机画像 / 性能指标数据集构建
要求:
给定一个已整理好的司机性能数据集、理解每个字段的业务含义、不再是 “算指标”,而是需要理解题目。
解题思路:
- 仅用训练集计算均值,填充训练集和测试集的年龄缺失值并取整。
- 基于训练集做类别编码,训练集无的新类别统一编为 – 1。
- 用训练集的均值和标准差标准化小费净值,训练集和测试集共用该参数。
- 对司机等级做固定编码,按要求保存数据并限定小费净值保留 5 位小数。
第 4 问:机器学习分类任务
要求:
基于前一问清洗后的数据、训练模型预测司机的 driver_class(0/1)、B 类(1)为正类、在保证 precision 不太低的前提下最大化 recall。
解题思路:
- 读取训练、验证、测试数据,剔除无关的 ID 列。
- 合并训练和验证集,分离特征和目标变量司机等级。
- 用带平衡类别权重的随机森林分类器训练全量数据。
- 用训练好的模型预测测试集,按要求保存司机等级结果。
C1 DS OA不想翻车?
如果你最近也收到了 Capital One DS OA,建议提前熟悉高频题型,尤其是 simulation 这种特别容易耗时间的题。很多人不是不会做,而是中途卡住,节奏一乱就很难写完。
我们这边一直在整理北美大厂的 OA 真题和高频模型,对 C1 的出题方向也比较熟。如果想更稳一点,或者不想因为一次网测影响后续面试,也可以来了解一下 OA 辅助支持 ,帮你在关键点少走弯路。已经有不少同学顺利推进到下一轮。