這次 BCG X 的 DS Intern OA 整體不偏演算法,明顯更貼近真實資料科學工作流:指標分析 → 資料構建 → 特徵工程 → 建模預測,基本就是一條完整的 DS pipeline。如果平時只刷 LeetCode,反而可能會不太適應這種題型。
Q1:核心業務指標計算
對網約車平臺資料進行三項核心指標分析:司機平均評分、掌握第二語言的司機比例、訂單成功率 整合多資料來源後,分別計算數值型評分的均值、布林型語言能力的佔比、訂單狀態的成功率。將結果整理為規整的(指標型別, 數值)表格,確保資料精度和可讀性。
Q2:構建司機畫像資料集
整合司機、車輛和行程資料,透過資料清洗、特徵計算和多表關聯構建完整的司機畫像資料集。 分別處理三部分資料:計算司機駕齡、車輛檢測天數、行程點贊數;透過主鍵關聯整合資料;處理缺失值並篩選最終欄位。關鍵步驟包括日期計算、布林值統計、多表合併和資料清洗。
Q3:機器學習前的資料預處理
對網約車司機資料進行預處理,包括缺失值填充、類別編碼、數值標準化和標籤轉換,為機器學習模型準備資料。 分別處理數值型和類別型特徵:年齡用訓練集均值填充;類別變數對映為序數編碼;小費金額標準化;司機等級轉為二進位制標籤。關鍵點包括防止資料洩露、保持訓練測試集處理一致性、控制數值精度。
Q4:隨機森林建模預測
基於處理後的司機特徵資料,訓練隨機森林模型預測測試集中司機的等級分類。 合併訓練集和驗證集以充分利用資料,使用隨機森林分類器進行訓練。關鍵點包括:平衡類別權重以提升召回率、設定隨機種子保證可復現性、保持預測結果與原始索引對齊。輸出二分類預測結果。
寫在最後
如果你也在準備 BCG X 或其他北美 DS 崗 OA,需要具體題目參考或者思路梳理,可以 聯絡 Programhelp 。我自己做過好幾次類似 OA,幫很多同學都順利透過。沒把握的話,有專業的實時助攻在關鍵環節提醒方向,能省下不少摸索和踩坑的時間,讓準備更高效,也更有信心。