談到量化投資,我們經(jīng)常會(huì)聽到“模型”這個(gè)詞,量化投資中的模型是什么概念?又該如何理解模型訓(xùn)練中的“過擬合”問題?本期專欄將圍繞相關(guān)專業(yè)話題進(jìn)行探討。
Q53:何為模型?如何區(qū)分模型與算法?
一般而言,模型(Model)由數(shù)據(jù)及如何使用歷史數(shù)據(jù)對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè)的過程組成。而算法(Algorithm)指執(zhí)行一種優(yōu)化過程,即在訓(xùn)練數(shù)據(jù)集上讓模型的誤差最小化。
在機(jī)器學(xué)習(xí)領(lǐng)域,“機(jī)器學(xué)習(xí)算法”經(jīng)常與“機(jī)器學(xué)習(xí)模型”交替使用——前者指的是在數(shù)據(jù)上運(yùn)行以創(chuàng)建機(jī)器學(xué)習(xí)“模型”的過程,后者著重表達(dá)用于進(jìn)行預(yù)測(cè)所需的規(guī)則、數(shù)字和任何其他特定于算法的數(shù)據(jù)結(jié)構(gòu)。
在模型開發(fā)/模型預(yù)測(cè)、模型訓(xùn)練/預(yù)測(cè)值合并等環(huán)節(jié)中會(huì)將提取到的特征或Alpha因子進(jìn)一步加工,得到“更優(yōu)Alpha”。早期量化私募的模型開發(fā)以線性模型為主,隨著非線性模型(如機(jī)器學(xué)習(xí)、深度學(xué)習(xí)模型)占比逐步提升,其模型復(fù)雜度、參數(shù)相比傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)模型有了很大提升,預(yù)測(cè)效果也更好,量化機(jī)構(gòu)整體投資能力獲得較大進(jìn)步——具體到如何精細(xì)化處理樹模型、神經(jīng)網(wǎng)絡(luò)模型等也從側(cè)面體現(xiàn)出各家研究深度和廣度的不同。
Q54:量化投資通用預(yù)測(cè)模型有哪些?
量化投資的環(huán)節(jié)中所采用的模型大致可以分為三類:因子挖掘模型、預(yù)測(cè)模型和組合優(yōu)化及交易算法模型。其中預(yù)測(cè)模型的發(fā)展總體而言是從簡(jiǎn)單到復(fù)雜、未來還要更復(fù)雜的迭代過程。目前,業(yè)內(nèi)比較通用的預(yù)測(cè)模型包括:
(1)注重可解釋性的線性模型:OLS
(2)統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)模型:Lasso、SVM、GBDT
(3)可端到端的深度學(xué)習(xí)模型:DNN、LSTM、Transformer、GNN
Q55:什么是過擬合?
過擬合(overfitting)是統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的常用概念,可分為訓(xùn)練過擬合和回測(cè)過擬合兩個(gè)層次:
一、訓(xùn)練過擬合是機(jī)器學(xué)習(xí)語境下偏狹義色彩的過擬合,指“機(jī)器學(xué)習(xí)模型在訓(xùn)練集上表現(xiàn)良好,但在測(cè)試集或新數(shù)據(jù)上表現(xiàn)較差”。產(chǎn)生原因是模型超參數(shù)選擇不當(dāng)或模型過度訓(xùn)練,解決方案通常是采用合理的交叉驗(yàn)證方法選擇模型超參數(shù)。
二、回測(cè)過擬合是量化研究語境下偏廣義色彩的過擬合,指“量化模型在回測(cè)階段表現(xiàn)好,在實(shí)盤階段表現(xiàn)差”。產(chǎn)生原因是市場(chǎng)規(guī)律發(fā)生變化,或者對(duì)回測(cè)階段數(shù)據(jù)噪音的過度學(xué)習(xí)?;販y(cè)過擬合難以根除,相對(duì)合理的解決方案是借助量化指標(biāo)檢驗(yàn)回測(cè)過擬合程度。
Q56:如何預(yù)防過擬合?
當(dāng)模型過于復(fù)雜、參數(shù)數(shù)量過多、學(xué)習(xí)能力太強(qiáng)時(shí),容易出現(xiàn)模型對(duì)于訓(xùn)練集以外的數(shù)據(jù)泛化能力差,表現(xiàn)為過擬合。
由于大多數(shù)機(jī)器學(xué)習(xí)模型并不是專門為金融時(shí)間序列開發(fā)的,這些模型在量化建模中的應(yīng)用需要適時(shí)調(diào)整。所以將機(jī)器學(xué)習(xí)應(yīng)用到量化投資領(lǐng)域時(shí),在模型訓(xùn)練中如何預(yù)防和避免過擬合顯得尤為重要,需要綜合考慮預(yù)測(cè)精度、模型可解釋性、模型魯棒性和計(jì)算復(fù)雜性等因素。其中金融時(shí)間序列預(yù)測(cè)必須避免使用未來信息,有時(shí)更傾向于隨著時(shí)間的推移將時(shí)間序列分成訓(xùn)練、驗(yàn)證和測(cè)試塊,即進(jìn)行前向驗(yàn)證,而非模型超參數(shù)優(yōu)化中的交叉驗(yàn)證。
在深度學(xué)習(xí)中,超參數(shù)的選擇對(duì)模型的訓(xùn)練和泛化性能有很大的影響——如果超參數(shù)過大,可能會(huì)導(dǎo)致模型過擬合,因此需要根據(jù)數(shù)據(jù)集和模型結(jié)構(gòu)進(jìn)行調(diào)整。這里的超參數(shù)是指那些需要手動(dòng)設(shè)置的參數(shù),這些參數(shù)不能直接從數(shù)據(jù)中學(xué)習(xí)得到,而需要通過持續(xù)調(diào)整和優(yōu)化參數(shù)來得到最優(yōu)的模型。
Q57:還有哪些原因可能導(dǎo)致模型回測(cè)與實(shí)盤中表現(xiàn)不一致?
模型在回測(cè)與實(shí)盤中表現(xiàn)不一致是投資領(lǐng)域中普遍存在的現(xiàn)象,并不都是過擬合導(dǎo)致的,還可能與以下因素有關(guān):
(1)數(shù)據(jù)偏差:回測(cè)時(shí)使用的歷史數(shù)據(jù)可能與實(shí)際市場(chǎng)環(huán)境存在一定差異;
(2)滑點(diǎn)和交易成本:實(shí)際交易中存在的滑點(diǎn)和交易成本都應(yīng)在回測(cè)時(shí)進(jìn)行預(yù)估;
(3)策略實(shí)現(xiàn)限制:在實(shí)盤交易中,策略實(shí)現(xiàn)效果可能會(huì)受交易執(zhí)行速度、交易執(zhí)行規(guī)模等因素的影響;
(4)市場(chǎng)已發(fā)生變化:由于金融市場(chǎng)由不同參與者組成,投資者結(jié)構(gòu)及投資者行為均會(huì)發(fā)生變化。金融市場(chǎng)還受整體宏觀環(huán)境、政治和經(jīng)濟(jì)等因素情況影響。所以不同階段市場(chǎng)運(yùn)行規(guī)律會(huì)發(fā)生一定的變化,基于過去總結(jié)的有效規(guī)律在未來也未必有效。
(CIS)
校對(duì):姚遠(yuǎn)