欧美国产日韩黄网,五月天在线男人资源站

《微觀量化百問》第十四期丨模型和模型訓練中的過擬合

來源：證券時報網(wǎng)2024-09-23 15:29

欄花.jpg

談到量化投資，我們經(jīng)常會聽到“模型”這個詞，量化投資中的模型是什么概念？又該如何理解模型訓練中的“過擬合”問題？本期專欄將圍繞相關專業(yè)話題進行探討。

Q53：何為模型？如何區(qū)分模型與算法？

一般而言，模型（Model）由數(shù)據(jù)及如何使用歷史數(shù)據(jù)對未來數(shù)據(jù)進行預測的過程組成。而算法（Algorithm）指執(zhí)行一種優(yōu)化過程，即在訓練數(shù)據(jù)集上讓模型的誤差最小化。

在機器學習領域，“機器學習算法”經(jīng)常與“機器學習模型”交替使用——前者指的是在數(shù)據(jù)上運行以創(chuàng)建機器學習“模型”的過程，后者著重表達用于進行預測所需的規(guī)則、數(shù)字和任何其他特定于算法的數(shù)據(jù)結構。

在模型開發(fā)/模型預測、模型訓練/預測值合并等環(huán)節(jié)中會將提取到的特征或Alpha因子進一步加工，得到“更優(yōu)Alpha”。早期量化私募的模型開發(fā)以線性模型為主，隨著非線性模型（如機器學習、深度學習模型）占比逐步提升，其模型復雜度、參數(shù)相比傳統(tǒng)統(tǒng)計學習模型有了很大提升，預測效果也更好，量化機構整體投資能力獲得較大進步——具體到如何精細化處理樹模型、神經(jīng)網(wǎng)絡模型等也從側面體現(xiàn)出各家研究深度和廣度的不同。

Q54：量化投資通用預測模型有哪些？

量化投資的環(huán)節(jié)中所采用的模型大致可以分為三類：因子挖掘模型、預測模型和組合優(yōu)化及交易算法模型。其中預測模型的發(fā)展總體而言是從簡單到復雜、未來還要更復雜的迭代過程。目前，業(yè)內(nèi)比較通用的預測模型包括：

（1）注重可解釋性的線性模型：OLS

（2）統(tǒng)計學習、機器學習模型：Lasso、SVM、GBDT

（3）可端到端的深度學習模型：DNN、LSTM、Transformer、GNN

Q55：什么是過擬合？

過擬合（overfitting）是統(tǒng)計學和機器學習領域的常用概念，可分為訓練過擬合和回測過擬合兩個層次：

一、訓練過擬合是機器學習語境下偏狹義色彩的過擬合，指“機器學習模型在訓練集上表現(xiàn)良好，但在測試集或新數(shù)據(jù)上表現(xiàn)較差”。產(chǎn)生原因是模型超參數(shù)選擇不當或模型過度訓練，解決方案通常是采用合理的交叉驗證方法選擇模型超參數(shù)。

二、回測過擬合是量化研究語境下偏廣義色彩的過擬合，指“量化模型在回測階段表現(xiàn)好，在實盤階段表現(xiàn)差”。產(chǎn)生原因是市場規(guī)律發(fā)生變化，或者對回測階段數(shù)據(jù)噪音的過度學習?；販y過擬合難以根除，相對合理的解決方案是借助量化指標檢驗回測過擬合程度。

Q56：如何預防過擬合？

當模型過于復雜、參數(shù)數(shù)量過多、學習能力太強時，容易出現(xiàn)模型對于訓練集以外的數(shù)據(jù)泛化能力差，表現(xiàn)為過擬合。

由于大多數(shù)機器學習模型并不是專門為金融時間序列開發(fā)的，這些模型在量化建模中的應用需要適時調(diào)整。所以將機器學習應用到量化投資領域時，在模型訓練中如何預防和避免過擬合顯得尤為重要，需要綜合考慮預測精度、模型可解釋性、模型魯棒性和計算復雜性等因素。其中金融時間序列預測必須避免使用未來信息，有時更傾向于隨著時間的推移將時間序列分成訓練、驗證和測試塊，即進行前向驗證，而非模型超參數(shù)優(yōu)化中的交叉驗證。

在深度學習中，超參數(shù)的選擇對模型的訓練和泛化性能有很大的影響——如果超參數(shù)過大，可能會導致模型過擬合，因此需要根據(jù)數(shù)據(jù)集和模型結構進行調(diào)整。這里的超參數(shù)是指那些需要手動設置的參數(shù)，這些參數(shù)不能直接從數(shù)據(jù)中學習得到，而需要通過持續(xù)調(diào)整和優(yōu)化參數(shù)來得到最優(yōu)的模型。

Q57：還有哪些原因可能導致模型回測與實盤中表現(xiàn)不一致？

模型在回測與實盤中表現(xiàn)不一致是投資領域中普遍存在的現(xiàn)象，并不都是過擬合導致的，還可能與以下因素有關：

（1）數(shù)據(jù)偏差：回測時使用的歷史數(shù)據(jù)可能與實際市場環(huán)境存在一定差異；

（2）滑點和交易成本：實際交易中存在的滑點和交易成本都應在回測時進行預估；

（3）策略實現(xiàn)限制：在實盤交易中，策略實現(xiàn)效果可能會受交易執(zhí)行速度、交易執(zhí)行規(guī)模等因素的影響；

（4）市場已發(fā)生變化：由于金融市場由不同參與者組成，投資者結構及投資者行為均會發(fā)生變化。金融市場還受整體宏觀環(huán)境、政治和經(jīng)濟等因素情況影響。所以不同階段市場運行規(guī)律會發(fā)生一定的變化，基于過去總結的有效規(guī)律在未來也未必有效。

（CIS）

責任編輯：王智佳

校對：姚遠

機構

綜合

量化投資