BCG X 2026 DS Intern OA ｜四道数据题全解析（附核心思路）

这次 BCG X 的 DS Intern OA 整体不偏算法，明显更贴近真实数据科学工作流：指标分析 → 数据构建 → 特征工程 → 建模预测，基本就是一条完整的 DS pipeline。如果平时只刷 LeetCode，反而可能会不太适应这种题型。

Q1：核心业务指标计算

对网约车平台数据进行三项核心指标分析：司机平均评分、掌握第二语言的司机比例、订单成功率整合多数据源后，分别计算数值型评分的均值、布尔型语言能力的占比、订单状态的成功率。将结果整理为规整的(指标类型, 数值)表格，确保数据精度和可读性。

整合司机、车辆和行程数据，通过数据清洗、特征计算和多表关联构建完整的司机画像数据集。分别处理三部分数据：计算司机驾龄、车辆检测天数、行程点赞数；通过主键关联整合数据；处理缺失值并筛选最终字段。关键步骤包括日期计算、布尔值统计、多表合并和数据清洗。

对网约车司机数据进行预处理，包括缺失值填充、类别编码、数值标准化和标签转换，为机器学习模型准备数据。分别处理数值型和类别型特征：年龄用训练集均值填充；类别变量映射为序数编码；小费金额标准化；司机等级转为二进制标签。关键点包括防止数据泄露、保持训练测试集处理一致性、控制数值精度。

基于处理后的司机特征数据，训练随机森林模型预测测试集中司机的等级分类。合并训练集和验证集以充分利用数据，使用随机森林分类器进行训练。关键点包括：平衡类别权重以提升召回率、设置随机种子保证可复现性、保持预测结果与原始索引对齐。输出二分类预测结果。

如果你也在准备 BCG X 或其他北美 DS 岗 OA，需要具体题目参考或者思路梳理，可以联系 Programhelp 。我自己做过好几次类似 OA，帮很多同学都顺利通过。没把握的话，有专业的实时助攻在关键环节提醒方向，能省下不少摸索和踩坑的时间，让准备更高效，也更有信心。

Jory Wang Amazon资深软件开发工程师

Amazon 资深工程师，专注基础设施核心系统研发，在系统可扩展性、可靠性及成本优化方面具备丰富实战经验。目前聚焦 FAANG SDE 面试辅导，一年内助力 30+ 位候选人成功斩获 L5 / L6 Offer。