?
完成本培訓后,學員將能夠:
1.?理解 AI 工程化的核心概念、挑戰與最佳實踐。
2.?獨立或協作完成一個端到端的 AI 項目,從數據準備到模型部署與監控。
3.?掌握 MLops 的關鍵工具鏈(如 Docker, Git, CI/CD, Kubernetes, 云平臺服務等)。
4.?具備構建高可用、可擴展且安全的 AI 系統的能力。
·?有一定基礎的軟件工程師/后端工程師
·?希望轉型 AI 工程化的數據科學家
·?DevOps/SRE 工程師
·?技術項目經理/產品經理
·?基本的 Python 編程能力
·?對機器學習基本概念(如訓練、測試、模型評估)有初步了解
·?了解 Linux 基礎命令和 Git 的基本使用
詳細大綱
1.1 引言:從模型到系統
什么是 AI 工程化?為什么它不同于學術研究或實驗性建模?
AI 項目的生命周期 vs 傳統軟件開發生命周期。
面臨的獨特挑戰:數據漂移、概念漂移、技術債、可復現性等。
1.2 MLOps 基礎
MLOps 的定義、原則與成熟度模型(手動 -> 自動化 -> 自主)。
MLOps 與 DevOps 的關聯與區別。
AI 工程化的關鍵支柱:數據、模型、代碼、基礎設施。
模塊二:數據工程與特征平臺
2.1 生產環境的數據管理
數據版本控制概念與工具介紹(如 DVC)。
數據質量驗證與監控(如 Great Expectations)。
數據血緣與元數據管理。
2.2 特征工程與特征存儲
生產環境中的特征工程:訓練/服務偏斜問題。
特征存儲的概念與價值(如 Feast, Tecton)。
實戰:使用一個開源特征存儲庫(如 Feast)實現特征的注冊、共享和復用。
模塊三:模型開發與可復現性
3.1 模型訓練的環境與編排
容器化基礎:使用 Docker 封裝訓練環境。
使用 MLflow 或 Weights & Biases 進行實驗跟蹤、參數記錄和模型注冊。
分布式訓練簡介(可選,視項目需求)。
3.2 模型評估與驗證
超越準確率:生產環境的模型評估指標(業務指標、公平性、可解釋性)。
模型驗證策略:在批準部署前確保新模型優于舊模型。
模塊四:模型部署與服務化
4.1 部署模式
離線(批量)預測 vs. 在線(實時)推理。
嵌入式部署:將模型打包到移動端或邊緣設備。
4.2 模型服務化
構建RESTful API:使用 FastAPI 或 Flask ?包裝模型。
容器化模型服務:創建模型的Docker 鏡像。
使用專業的模型服務工具:KServe, Seldon Core, Triton Inference Server。
4.3 在云平臺上部署
云服務概覽:AWS SageMaker, GCP Vertex AI, Azure ML
實戰:將容器化的模型部署到 Kubernetes 集群或無服務器平臺(如 AWS EKS/Fargate)
模塊五:自動化流水線與持續集成/持續交付
5.1 CI/CD for ML
為 ML 項目定制 CI/CD 流水線(使用 GitHub Actions, GitLab CI, Jenkins)。
自動化流程:代碼檢查 -> 運行測試 -> 訓練模型 -> 評估 -> 部署。
5.2 構建自動化 ML 流水線
使用 Kubeflow Pipelines 或 Airflow 編排端到端的 ML 工作流。
實戰:構建一個從數據預處理到模型部署的完整自動化流水線。
模塊六:生產環境的監控與治理
6.1 模型與系統監控
系統監控:延遲、吞吐量、錯誤率、資源利用率。
模型性能監控:預測質量下降、數據漂移、概念漂移的檢測與告警。
實戰:使用 Prometheus/Grafana 或 Evidently AI 設置監控看板。
6.2 AI 系統的治理與倫理
模型的可解釋性與公平性(SHAP, LIME)。
模型安全與對抗性攻擊簡介。
成本管理與優化。
模塊七:綜合項目實戰