BCG X 2026 DS Intern OA |四道数据题全解析(附核心思路)

51Times read
No Comments

这次 BCG X 的 DS Intern OA 整体不偏算法,明显更贴近真实数据科学工作流:指标分析 → 数据构建 → 特征工程 → 建模预测,基本就是一条完整的 DS pipeline。如果平时只刷 LeetCode,反而可能会不太适应这种题型。

Q1:核心业务指标计算

对网约车平台数据进行三项核心指标分析:司机平均评分、掌握第二语言的司机比例、订单成功率 整合多数据源后,分别计算数值型评分的均值、布尔型语言能力的占比、订单状态的成功率。将结果整理为规整的(指标类型, 数值)表格,确保数据精度和可读性。

Q1:核心业务指标计算

Q2:构建司机画像数据集

整合司机、车辆和行程数据,通过数据清洗、特征计算和多表关联构建完整的司机画像数据集。 分别处理三部分数据:计算司机驾龄、车辆检测天数、行程点赞数;通过主键关联整合数据;处理缺失值并筛选最终字段。关键步骤包括日期计算、布尔值统计、多表合并和数据清洗。

Q2:构建司机画像数据集

Q3:机器学习前的数据预处理

对网约车司机数据进行预处理,包括缺失值填充、类别编码、数值标准化和标签转换,为机器学习模型准备数据。 分别处理数值型和类别型特征:年龄用训练集均值填充;类别变量映射为序数编码;小费金额标准化;司机等级转为二进制标签。关键点包括防止数据泄露、保持训练测试集处理一致性、控制数值精度。

Q3:机器学习前的数据预处理

Q4:随机森林建模预测

基于处理后的司机特征数据,训练随机森林模型预测测试集中司机的等级分类。 合并训练集和验证集以充分利用数据,使用随机森林分类器进行训练。关键点包括:平衡类别权重以提升召回率、设置随机种子保证可复现性、保持预测结果与原始索引对齐。输出二分类预测结果。

Q4:随机森林建模预测

写在最后

如果你也在准备 BCG X 或其他北美 DS 岗 OA,需要具体题目参考或者思路梳理,可以 联系 Programhelp 。我自己做过好几次类似 OA,帮很多同学都顺利通过。没把握的话,有专业的实时助攻在关键环节提醒方向,能省下不少摸索和踩坑的时间,让准备更高效,也更有信心。

author avatar
Jory Wang Amazon资深软件开发工程师
Amazon 资深工程师,专注 基础设施核心系统研发,在系统可扩展性、可靠性及成本优化方面具备丰富实战经验。 目前聚焦 FAANG SDE 面试辅导,一年内助力 30+ 位候选人成功斩获 L5 / L6 Offer。
End of text
 0