久久久久久影院|深夜高潮喷水视频|久久五级视频|5566无码网址

《微觀量化百問》第十四期丨模型和模型訓(xùn)練中的過擬合
來源:證券時(shí)報(bào)網(wǎng)2024-09-23 15:29

欄花.jpg

談到量化投資,我們經(jīng)常會(huì)聽到“模型”這個(gè)詞,量化投資中的模型是什么概念?又該如何理解模型訓(xùn)練中的“過擬合”問題?本期專欄將圍繞相關(guān)專業(yè)話題進(jìn)行探討。

Q53:何為模型?如何區(qū)分模型與算法?

一般而言,模型(Model)由數(shù)據(jù)及如何使用歷史數(shù)據(jù)對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè)的過程組成。而算法(Algorithm)指執(zhí)行一種優(yōu)化過程,即在訓(xùn)練數(shù)據(jù)集上讓模型的誤差最小化。

在機(jī)器學(xué)習(xí)領(lǐng)域,“機(jī)器學(xué)習(xí)算法”經(jīng)常與“機(jī)器學(xué)習(xí)模型”交替使用——前者指的是在數(shù)據(jù)上運(yùn)行以創(chuàng)建機(jī)器學(xué)習(xí)“模型”的過程,后者著重表達(dá)用于進(jìn)行預(yù)測(cè)所需的規(guī)則、數(shù)字和任何其他特定于算法的數(shù)據(jù)結(jié)構(gòu)。

在模型開發(fā)/模型預(yù)測(cè)、模型訓(xùn)練/預(yù)測(cè)值合并等環(huán)節(jié)中會(huì)將提取到的特征或Alpha因子進(jìn)一步加工,得到“更優(yōu)Alpha”。早期量化私募的模型開發(fā)以線性模型為主,隨著非線性模型(如機(jī)器學(xué)習(xí)、深度學(xué)習(xí)模型)占比逐步提升,其模型復(fù)雜度、參數(shù)相比傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)模型有了很大提升,預(yù)測(cè)效果也更好,量化機(jī)構(gòu)整體投資能力獲得較大進(jìn)步——具體到如何精細(xì)化處理樹模型、神經(jīng)網(wǎng)絡(luò)模型等也從側(cè)面體現(xiàn)出各家研究深度和廣度的不同。

Q54:量化投資通用預(yù)測(cè)模型有哪些?

量化投資的環(huán)節(jié)中所采用的模型大致可以分為三類:因子挖掘模型、預(yù)測(cè)模型和組合優(yōu)化及交易算法模型。其中預(yù)測(cè)模型的發(fā)展總體而言是從簡(jiǎn)單到復(fù)雜、未來還要更復(fù)雜的迭代過程。目前,業(yè)內(nèi)比較通用的預(yù)測(cè)模型包括:

(1)注重可解釋性的線性模型:OLS

(2)統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)模型:Lasso、SVM、GBDT

(3)可端到端的深度學(xué)習(xí)模型:DNN、LSTM、Transformer、GNN

Q55:什么是過擬合?

過擬合(overfitting)是統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的常用概念,可分為訓(xùn)練過擬合和回測(cè)過擬合兩個(gè)層次:

一、訓(xùn)練過擬合是機(jī)器學(xué)習(xí)語境下偏狹義色彩的過擬合,指“機(jī)器學(xué)習(xí)模型在訓(xùn)練集上表現(xiàn)良好,但在測(cè)試集或新數(shù)據(jù)上表現(xiàn)較差”。產(chǎn)生原因是模型超參數(shù)選擇不當(dāng)或模型過度訓(xùn)練,解決方案通常是采用合理的交叉驗(yàn)證方法選擇模型超參數(shù)。

二、回測(cè)過擬合是量化研究語境下偏廣義色彩的過擬合,指“量化模型在回測(cè)階段表現(xiàn)好,在實(shí)盤階段表現(xiàn)差”。產(chǎn)生原因是市場(chǎng)規(guī)律發(fā)生變化,或者對(duì)回測(cè)階段數(shù)據(jù)噪音的過度學(xué)習(xí)?;販y(cè)過擬合難以根除,相對(duì)合理的解決方案是借助量化指標(biāo)檢驗(yàn)回測(cè)過擬合程度。

Q56:如何預(yù)防過擬合?

當(dāng)模型過于復(fù)雜、參數(shù)數(shù)量過多、學(xué)習(xí)能力太強(qiáng)時(shí),容易出現(xiàn)模型對(duì)于訓(xùn)練集以外的數(shù)據(jù)泛化能力差,表現(xiàn)為過擬合。

由于大多數(shù)機(jī)器學(xué)習(xí)模型并不是專門為金融時(shí)間序列開發(fā)的,這些模型在量化建模中的應(yīng)用需要適時(shí)調(diào)整。所以將機(jī)器學(xué)習(xí)應(yīng)用到量化投資領(lǐng)域時(shí),在模型訓(xùn)練中如何預(yù)防和避免過擬合顯得尤為重要,需要綜合考慮預(yù)測(cè)精度、模型可解釋性、模型魯棒性和計(jì)算復(fù)雜性等因素。其中金融時(shí)間序列預(yù)測(cè)必須避免使用未來信息,有時(shí)更傾向于隨著時(shí)間的推移將時(shí)間序列分成訓(xùn)練、驗(yàn)證和測(cè)試塊,即進(jìn)行前向驗(yàn)證,而非模型超參數(shù)優(yōu)化中的交叉驗(yàn)證。

在深度學(xué)習(xí)中,超參數(shù)的選擇對(duì)模型的訓(xùn)練和泛化性能有很大的影響——如果超參數(shù)過大,可能會(huì)導(dǎo)致模型過擬合,因此需要根據(jù)數(shù)據(jù)集和模型結(jié)構(gòu)進(jìn)行調(diào)整。這里的超參數(shù)是指那些需要手動(dòng)設(shè)置的參數(shù),這些參數(shù)不能直接從數(shù)據(jù)中學(xué)習(xí)得到,而需要通過持續(xù)調(diào)整和優(yōu)化參數(shù)來得到最優(yōu)的模型。

Q57:還有哪些原因可能導(dǎo)致模型回測(cè)與實(shí)盤中表現(xiàn)不一致?

模型在回測(cè)與實(shí)盤中表現(xiàn)不一致是投資領(lǐng)域中普遍存在的現(xiàn)象,并不都是過擬合導(dǎo)致的,還可能與以下因素有關(guān):

(1)數(shù)據(jù)偏差:回測(cè)時(shí)使用的歷史數(shù)據(jù)可能與實(shí)際市場(chǎng)環(huán)境存在一定差異;

(2)滑點(diǎn)和交易成本:實(shí)際交易中存在的滑點(diǎn)和交易成本都應(yīng)在回測(cè)時(shí)進(jìn)行預(yù)估;

(3)策略實(shí)現(xiàn)限制:在實(shí)盤交易中,策略實(shí)現(xiàn)效果可能會(huì)受交易執(zhí)行速度、交易執(zhí)行規(guī)模等因素的影響;

(4)市場(chǎng)已發(fā)生變化:由于金融市場(chǎng)由不同參與者組成,投資者結(jié)構(gòu)及投資者行為均會(huì)發(fā)生變化。金融市場(chǎng)還受整體宏觀環(huán)境、政治和經(jīng)濟(jì)等因素情況影響。所以不同階段市場(chǎng)運(yùn)行規(guī)律會(huì)發(fā)生一定的變化,基于過去總結(jié)的有效規(guī)律在未來也未必有效。

(CIS)

校對(duì):姚遠(yuǎn)

責(zé)任編輯: 王智佳
聲明:證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險(xiǎn)自擔(dān)
下載“證券時(shí)報(bào)”官方APP,或關(guān)注官方微信公眾號(hào),即可隨時(shí)了解股市動(dòng)態(tài),洞察政策信息,把握財(cái)富機(jī)會(huì)。
網(wǎng)友評(píng)論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法,并不表明證券時(shí)報(bào)立場(chǎng)
暫無評(píng)論
為你推薦
時(shí)報(bào)熱榜
換一換
    熱點(diǎn)視頻
    換一換