BCG X 2026 DS Intern OA ｜四道資料題全解析（附核心思路）

這次 BCG X 的 DS Intern OA 整體不偏演算法，明顯更貼近真實資料科學工作流：指標分析 → 資料構建 → 特徵工程 → 建模預測，基本就是一條完整的 DS pipeline。如果平時只刷 LeetCode，反而可能會不太適應這種題型。

Q1：核心業務指標計算

對網約車平臺資料進行三項核心指標分析：司機平均評分、掌握第二語言的司機比例、訂單成功率整合多資料來源後，分別計算數值型評分的均值、布林型語言能力的佔比、訂單狀態的成功率。將結果整理為規整的(指標型別, 數值)表格，確保資料精度和可讀性。

整合司機、車輛和行程資料，透過資料清洗、特徵計算和多表關聯構建完整的司機畫像資料集。分別處理三部分資料：計算司機駕齡、車輛檢測天數、行程點贊數；透過主鍵關聯整合資料；處理缺失值並篩選最終欄位。關鍵步驟包括日期計算、布林值統計、多表合併和資料清洗。

對網約車司機資料進行預處理，包括缺失值填充、類別編碼、數值標準化和標籤轉換，為機器學習模型準備資料。分別處理數值型和類別型特徵：年齡用訓練集均值填充；類別變數對映為序數編碼；小費金額標準化；司機等級轉為二進位制標籤。關鍵點包括防止資料洩露、保持訓練測試集處理一致性、控制數值精度。

基於處理後的司機特徵資料，訓練隨機森林模型預測測試集中司機的等級分類。合併訓練集和驗證集以充分利用資料，使用隨機森林分類器進行訓練。關鍵點包括：平衡類別權重以提升召回率、設定隨機種子保證可復現性、保持預測結果與原始索引對齊。輸出二分類預測結果。

如果你也在準備 BCG X 或其他北美 DS 崗 OA，需要具體題目參考或者思路梳理，可以聯絡 Programhelp 。我自己做過好幾次類似 OA，幫很多同學都順利透過。沒把握的話，有專業的實時助攻在關鍵環節提醒方向，能省下不少摸索和踩坑的時間，讓準備更高效，也更有信心。

Jory Wang Amazon資深軟體開發工程師

Amazon 資深工程師，專注基礎設施核心系統研發，在系統可擴充套件性、可靠性及成本最佳化方面具備豐富實戰經驗。目前聚焦 FAANG SDE 面試輔導，一年內助力 30+ 位候選人成功斬獲 L5 / L6 Offer。