最近C1放出了很多OA, Capital One OA 真的沒想像中難!前兩題比較簡單,easy難度,重點是第3,4題, 一般都是medium和hard的難度 (不知道為什麼C1特別喜歡考simulation的題, 什麼給定一系列操作,問最後形態。拿了onsite得去問問面試官!),分享一套剛完成的Capital one ds OA 滿分通過,
第 1 問:基礎數據分析 + CSV 輸出
要求:讀取司機(drivers.csv)和多份行程數據(rides_1.csv ~ rides_4.csv);做基礎數據清洗;合併與統計;將分析結果保存為 CSV 文件。
解題思路:1. 讀取司機數據,計算評分均值和掌握第二語言司機的佔比。 2. 合併四份訂單數據,計算成功狀態訂單的佔比。 3. 構造結果數據並完成保存。
第 2 問:時間特徵 + 擴展字段分析
要求:数据时间点固定为2023-04-15、在 drivers.csv 中引入更多字段(如 started_driving_year)、基于“今天”计算时间衍生特征(如驾龄)。
解題思路:1. 以2023-04-15為基準,處理車輛表得到檢驗間隔天數,處理司機表算出工齡。 2. 合併四份訂單表,按司機ID分組統計總點贊數。 3. 以司機表為主表左連接車輛、訂單處理後的數據,空點贊數填0。 4. 按要求整理列順序並保存結果。
第 3 問:司機畫像 / 性能指標數據集構建
要求:給定一個已整理好的司機性能數據集、理解每個字段的業務含義、不再是“算指標”,而是需要理解題目。
解題思路:1. 僅用訓練集計算均值,填充訓練集和測試集的年齡缺失值並取整。 2. 基於訓練集做類別編碼,訓練集無的新類別統一編為-1。 3. 用訓練集的均值和標準差標準化小費淨值,訓練集和測試集共用該參數。 4. 對司機等級做固定編碼,按要求保存數據並限定小費淨值保留5位小數。
第 4 問:機器學習分類任務
要求:基於前一問清洗後的數據、訓練模型預測司機的 driver_class(0 / 1)、B 類(1)為正類、在保證 precision 不太低的前提下最大化 recall。
解題思路:1. 讀取訓練、驗證、測試數據,剔除無關的ID列。 2. 合併訓練和驗證集,分離特徵和目標變量司機等級。 3. 用帶平衡類別權重的隨機森林分類器訓練全量數據。 4. 用訓練好的模型預測測試集,按要求保存司機等級結果。
準備小結
順便說一下結果。這次 Capital one OA 我這邊是找了 programhelp 做了全程的 OA 輔助 ,大概過了一周左右,就收到了 Recruiter 發來的郵件,通知我進入下一輪 VO。回頭看這次 OA,單純靠自己硬頂的話,很可能會踩坑。如果你也在準備 C1 或其他大廠的 OA/VO,可以直接聯繫 programhelp 了解對應的面試輔助和陪跑支持。