?
l?·理解LlamaFactory框架的核心原理和架構設計。
l?·掌握大模型微調的基礎理論,包括不同的微調方法、訓練技巧等。
l?·熟悉LlamaFactory支持的多種大型語言模型及其特點。
l?·學會使用LlamaFactory進行模型的選擇、參數配置、數據加載與預處理。
l?·能夠運用各種微調方法對模型進行訓練,并根據訓練效果進行評估與優化。
l?·了解在微調過程中如何合理選擇運算精度以及控制內存占用。
l?·掌握數據組織格式、RoPE scaling等對模型性能的影響及應用方法。
l?·熟悉不同類型的學習率調度器在不同場景下的應用策略。
l?·了解并應用NEFTune等提升模型表現的技巧和參數設置。
l?·掌握LongLora所用的Shifted Sparse Attention機制及基于LoRA的各種優化方法。
l?·熟悉RLHF相關參數的設置與作用。
l?·了解GaLore和Badam等先進算法的原理及應用場景。
培訓提綱
模塊一:LlamaFactory概述
·LlamaFactory的起源與發展
·LlamaFactory的核心價值與應用場景
·LlamaFactory的架構設計與模塊劃分
模塊二:大模型基礎
·大語言模型(LLM)的基本概念與原理
·常見的大語言模型架構(如Transformer等)介紹
·模型參數規模、性能與應用場景的關系
模塊三:LlamaFactory支持的模型與精度選擇
·LlamaFactory支持的大型語言模型全覽
·模型精度的選擇策略
模塊四:大模型的查找與下載
·如何在官方渠道查找所需的預訓練模型
·模型版本的選擇依據與注意事項
·模型文件的下載流程與存儲管理
·模型合法性與版權問題解讀
模塊五:訓練大模型的方法與流程
·自監督學習在大模型訓練中的應用
o自監督學習的原理與優勢
o常見的自監督學習任務設計
·聚合問答數據并訓練獎勵模型(RM)
o問答數據的收集與整理
o獎勵模型的構建與訓練流程
·強化學習(RL)方式微調LM
o強化學習在模型微調中的作用與原理
o如何設計獎勵信號與策略更新機制
·有監督的微調方法與實踐
o有監督微調的數據準備與標注要求
o訓練過程中的關鍵步驟與技巧
模塊六:預訓練及微調方法詳解
·PPO(近端策略優化)算法
oPPO算法的核心思想與數學原理
o如何使用PPO對策略進行優化
·DPO(直接偏好優化)方法
oDPO的工作原理與實現機制
o增加偏好樣本對數概率與減小非偏好樣本響應對數概率的具體操作
·KTO(基于前景理論的對齊方法)
oKTO的理論基礎與創新點
o人類感知損失函數的設計與應用
·ORPO(新的偏好對齊訓練方法)
oORPO如何將SFT和偏好對齊結合到新的目標函數中
o避免SFT階段的優勢與實現要點
·SimPO(離線偏好優化算法)
oSimPO的算法原理與特點
o隱含獎勵的計算與應用
模塊七:使用LlamaFactory進行模型微調的實踐操作
·參數配置
o根據任務需求配置微調參數的原則與方法
o常見參數(如學習率、批次大小、計算類型等)的設置與調整技巧
·數據加載與預處理
o如何加載適合的任務數據
o按照LlamaFactory格式要求進行數據預處理的具體步驟與注意事項
·訓練過程
o使用LlamaFactory進行模型訓練的操作流程
o監控訓練過程中的指標變化與日志記錄
o根據訓練效果進行參數調整與優化的方法與策略
·模型選擇
o如何選擇適合的預訓練模型作為微調基礎
o模型評估的關鍵指標與方法
·評估與優化
o微調后模型的評估維度與標準
o基于評估結果進行模型優化的技巧與實踐案例
模塊八:微調方法的選擇與應用
·增量預訓練
o適用場景與優勢分析
o如何通過增量預訓練提升模型的泛化能力
·指令監督微調
o指令和反饋方式微調模型的操作流程
o使模型更好地理解和執行特定任務指令的技巧
·RLHF(獎勵學習與人類反饋)優化
模塊九:微調時的運算精度與內存占用控制
·不同運算精度對模型性能和資源消耗的影響
·如何在保證模型效果的前提下合理降低運算精度
·內存優化策略與技巧
o模型量化方法的應用
o訓練過程中的內存管理與優化實踐
模塊十:數據組織格式與RoPE scaling
·Alpaca數據格式詳解
o格式特點與適用場景
o數據加載與處理示例
·ShareGPT數據格式解讀
o與Alpaca數據格式的對比分析
o在不同任務中的應用策略
·RoPE scaling的原理與應用
o旋轉位置編碼(RoPE)的優勢與實現機制
oNone、Linear、Dynamic三種縮放方式的適用場景與選擇依據
模塊十一:學習率調度器類型與應用
·各種學習率調度器的工作原理與特點
·不同學習率調度器在各種任務場景下的應用案例與效果分析
·如何根據任務需求和模型特性選擇合適的學習率調度器
·NEFTune方法的原理與優勢
o在詞向量中引入均勻分布噪聲提升模型表現的機制
oNEFTune在不同數據集上的實驗結果與效果分析
·NEFTune相關參數的設置與調整技巧
o如何確定合適的噪聲強度
o噪聲引入的頻率與訓練輪數的關系
模塊十三:其他重要參數與技術
·序列打包與無污染打包
o序列打包的目的與實現方法
o無污染打包的原理與應用場景
·學習提示詞與不學習歷史對話
o在SFT中如何設置學習提示詞
o不學習歷史對話的實現方式與適用場景
·更改詞表大小
o調整分詞器詞表和嵌入層大小的影響與操作方法
·使用LLaMA Pro與S^2 Attention
LLaMA Pro的特點與優勢
S^2 Attention的原理與應用效果
·啟用外部記錄面板
o如何使用TensorBoard或wandb記錄實驗
o可視化工具在模型訓練監控中的作用與使用技巧
模塊十四:LongLora所用的Shifted Sparse Attention
·Shifted Sparse Attention的原理與優勢
o將上下文長度分成組并在組內單獨計算注意力的機制
o半注意力頭中token移位保證相鄰組信息流動的方法
·Shifted Sparse Attention在長文本處理中的應用案例與效果分析
模塊十五:基于LoRA的各種優化方法
·LoRA縮放系數(lora_alpha)的設置與調整
·LoRA + 學習率比例(loraplus_lr_ratio)的應用
oLoRA + 的原理與優勢
o如何通過設置loraplus_lr_ratio提高訓練效率
·rsLoRA(Rank - Stabilized LoRA)的原理與實現
·DoRA(Weight - Decomposed LoRA)的原理與應用
oDoRA對權重矩陣分解的方法與優勢
o如何設置use_dora參數使用DoRA
·PiSSA(Pretrained Self - Supervised Adapter)的原理與實踐
·Beta參數的作用與設置
o在損失函數中平衡不同類型損失項的機制
o如何根據任務需求調整Beta參數值
·Ftx gamma參數的影響與應用
·歸一化獎勵分數與白化處理
模塊十七:GaLore與Badam算法
·GaLore(Gradient Low - Rank Projection)的原理與優勢
·Badam算法的特點與應用場景
模塊十八:總結與展望
·課程內容回顧與重點總結
·LlamaFactory在實際項目中的應用案例分享
·大語言模型微調技術的發展趨勢與未來展望
·學員問題答疑與交流互動環節
?