Capital One DS OA |New Grad網測覆盤 + 高頻Simulation題型解析

最近不少同學陸續收到了 Capital One Data Scientist New Grad 的 OA。整體來看難度不高:前兩題偏 easy,主要考察基礎資料處理與邏輯;後兩題多為 simulation,需要根據一系列操作推演最終狀態,更考驗建模思維和細節把控。下面就分享本次 Capital One DS OA 的真題型別和核心考察點,幫助大家提前建立思路,避免被 simulation 題拖慢節奏。

第 1 問:基礎資料分析 + CSV 輸出

第 1 問:基礎資料分析 + CSV 輸出

要求

  • 讀取司機(drivers.csv)和多份行程資料(rides_1.csv ~ rides_4.csv);
  • 做基礎資料清洗;
  • 合併與統計;
  • 將分析結果儲存為 CSV 檔案。

解題思路

  1. 讀取司機資料,計算評分均值和掌握第二語言司機的佔比。
  2. 合併四份訂單資料,計算成功狀態訂單的佔比。
  3. 構造結果資料並完成儲存。

第 2 問:時間特徵 + 擴充套件欄位分析

第 2 問:時間特徵 + 擴充套件欄位分析

要求

資料時間點固定為 2023-04-15、在 drivers.csv 中引入更多欄位(如 started_driving_year)、基於 “今天” 計算時間衍生特徵(如駕齡)。

解題思路

  1. 以 2023-04-15 為基準,處理車輛表得到檢驗間隔天數,處理司機表算出工齡。
  2. 合併四份訂單表,按司機 ID 分組統計總點贊數。
  3. 以司機表為主表左連線車輛、訂單處理後的資料,空點贊數填 0。
  4. 按要求整理列順序並儲存結果。

第 3 問:司機畫像 / 效能指標資料集構建

要求

給定一個已整理好的司機效能資料集、理解每個欄位的業務含義、不再是 “算指標”,而是需要理解題目。

解題思路

  1. 僅用訓練集計算均值,填充訓練集和測試集的年齡缺失值並取整。
  2. 基於訓練集做類別編碼,訓練集無的新類別統一編為 – 1。
  3. 用訓練集的均值和標準差標準化小費淨值,訓練集和測試集共用該引數。
  4. 對司機等級做固定編碼,按要求儲存資料並限定小費淨值保留 5 位小數。

第 4 問:機器學習分類任務

第 4 問:機器學習分類任務

要求

基於前一問清洗後的資料、訓練模型預測司機的 driver_class(0/1)、B 類(1)為正類、在保證 precision 不太低的前提下最大化 recall。

解題思路

  1. 讀取訓練、驗證、測試資料,剔除無關的 ID 列。
  2. 合併訓練和驗證集,分離特徵和目標變數司機等級。
  3. 用帶平衡類別權重的隨機森林分類器訓練全量資料。
  4. 用訓練好的模型預測測試集,按要求儲存司機等級結果。

C1 DS OA不想翻車?

如果你最近也收到了 Capital One DS OA,建議提前熟悉高頻題型,尤其是 simulation 這種特別容易耗時間的題。很多人不是不會做,而是中途卡住,節奏一亂就很難寫完。

我們這邊一直在整理北美大廠的 OA 真題和高頻模型,對 C1 的出題方向也比較熟。如果想更穩一點,或者不想因為一次網測影響後續面試,也可以來了解一下 OA 輔助支援 ,幫你在關鍵點少走彎路。已經有不少同學順利推進到下一輪。

author avatar
Jory Wang Amazon資深軟體開發工程師
Amazon 資深工程師,專注 基礎設施核心系統研發,在系統可擴充套件性、可靠性及成本最佳化方面具備豐富實戰經驗。 目前聚焦 FAANG SDE 面試輔導,一年內助力 30+ 位候選人成功斬獲 L5 / L6 Offer。
END
 0