这次 BCG X 的 DS Intern OA 整体不偏算法,明显更贴近真实数据科学工作流:指标分析 → 数据构建 → 特征工程 → 建模预测,基本就是一条完整的 DS pipeline。如果平时只刷 LeetCode,反而可能会不太适应这种题型。
Q1:核心业务指标计算
对网约车平台数据进行三项核心指标分析:司机平均评分、掌握第二语言的司机比例、订单成功率 整合多数据源后,分别计算数值型评分的均值、布尔型语言能力的占比、订单状态的成功率。将结果整理为规整的(指标类型, 数值)表格,确保数据精度和可读性。
Q2:构建司机画像数据集
整合司机、车辆和行程数据,通过数据清洗、特征计算和多表关联构建完整的司机画像数据集。 分别处理三部分数据:计算司机驾龄、车辆检测天数、行程点赞数;通过主键关联整合数据;处理缺失值并筛选最终字段。关键步骤包括日期计算、布尔值统计、多表合并和数据清洗。
Q3:机器学习前的数据预处理
对网约车司机数据进行预处理,包括缺失值填充、类别编码、数值标准化和标签转换,为机器学习模型准备数据。 分别处理数值型和类别型特征:年龄用训练集均值填充;类别变量映射为序数编码;小费金额标准化;司机等级转为二进制标签。关键点包括防止数据泄露、保持训练测试集处理一致性、控制数值精度。
Q4:随机森林建模预测
基于处理后的司机特征数据,训练随机森林模型预测测试集中司机的等级分类。 合并训练集和验证集以充分利用数据,使用随机森林分类器进行训练。关键点包括:平衡类别权重以提升召回率、设置随机种子保证可复现性、保持预测结果与原始索引对齐。输出二分类预测结果。
写在最后
如果你也在准备 BCG X 或其他北美 DS 岗 OA,需要具体题目参考或者思路梳理,可以 联系 Programhelp 。我自己做过好几次类似 OA,帮很多同学都顺利通过。没把握的话,有专业的实时助攻在关键环节提醒方向,能省下不少摸索和踩坑的时间,让准备更高效,也更有信心。