最近不少同學陸續收到了 Capital One Data Scientist New Grad 的 OA。整體來看難度不高:前兩題偏 easy,主要考察基礎資料處理與邏輯;後兩題多為 simulation,需要根據一系列操作推演最終狀態,更考驗建模思維和細節把控。下面就分享本次 Capital One DS OA 的真題型別和核心考察點,幫助大家提前建立思路,避免被 simulation 題拖慢節奏。
第 1 問:基礎資料分析 + CSV 輸出
要求:
- 讀取司機(drivers.csv)和多份行程資料(rides_1.csv ~ rides_4.csv);
- 做基礎資料清洗;
- 合併與統計;
- 將分析結果儲存為 CSV 檔案。
解題思路:
- 讀取司機資料,計算評分均值和掌握第二語言司機的佔比。
- 合併四份訂單資料,計算成功狀態訂單的佔比。
- 構造結果資料並完成儲存。
第 2 問:時間特徵 + 擴充套件欄位分析
要求:
資料時間點固定為 2023-04-15、在 drivers.csv 中引入更多欄位(如 started_driving_year)、基於 “今天” 計算時間衍生特徵(如駕齡)。
解題思路:
- 以 2023-04-15 為基準,處理車輛表得到檢驗間隔天數,處理司機表算出工齡。
- 合併四份訂單表,按司機 ID 分組統計總點贊數。
- 以司機表為主表左連線車輛、訂單處理後的資料,空點贊數填 0。
- 按要求整理列順序並儲存結果。
第 3 問:司機畫像 / 效能指標資料集構建
要求:
給定一個已整理好的司機效能資料集、理解每個欄位的業務含義、不再是 “算指標”,而是需要理解題目。
解題思路:
- 僅用訓練集計算均值,填充訓練集和測試集的年齡缺失值並取整。
- 基於訓練集做類別編碼,訓練集無的新類別統一編為 – 1。
- 用訓練集的均值和標準差標準化小費淨值,訓練集和測試集共用該引數。
- 對司機等級做固定編碼,按要求儲存資料並限定小費淨值保留 5 位小數。
第 4 問:機器學習分類任務
要求:
基於前一問清洗後的資料、訓練模型預測司機的 driver_class(0/1)、B 類(1)為正類、在保證 precision 不太低的前提下最大化 recall。
解題思路:
- 讀取訓練、驗證、測試資料,剔除無關的 ID 列。
- 合併訓練和驗證集,分離特徵和目標變數司機等級。
- 用帶平衡類別權重的隨機森林分類器訓練全量資料。
- 用訓練好的模型預測測試集,按要求儲存司機等級結果。
C1 DS OA不想翻車?
如果你最近也收到了 Capital One DS OA,建議提前熟悉高頻題型,尤其是 simulation 這種特別容易耗時間的題。很多人不是不會做,而是中途卡住,節奏一亂就很難寫完。
我們這邊一直在整理北美大廠的 OA 真題和高頻模型,對 C1 的出題方向也比較熟。如果想更穩一點,或者不想因為一次網測影響後續面試,也可以來了解一下 OA 輔助支援 ,幫你在關鍵點少走彎路。已經有不少同學順利推進到下一輪。