《基金持股中的股票嵌入与股票关联》2024.5.24下午场
Q:股票之间收益率的相关性在2014-2023年的历史时期内有结构性断点(图 4.10),那么在Fama MacBeth回归(表 4.17)中为什么没有考虑结构性变化、而是直接对全历史的因子收益率均值计算显著性?
A:股票间收益率的相关性在时序上发生结构性,并不意味着异象因子和未来收益的截面相关性在时序上也发生结构性变化;观察因子日度IC均值和IC累计值(图 4.16),关联动量因子和未来收益之间的截面相关性系数在时序上并没有明显的结构性变化;因子作为解释变量,未来收益作为被解释变量,两者相关性系数即是因子收益率的近似,因此日度IC近似于平稳时,可以直接对因子收益率的时序均值进行假设检验。此外,在检验时对时序方差进行Newey-West调整。尽管如此,为了更加严谨,也可以在Fama Macbeth检验前对日度IC时序分布进行断点识别,或者在检验时对回归估计系数(即因子收益率)的时序分布进行断点识别。
Q:怎么看出嵌入模型的W2V相似度指标,比人工模型的关联度指标的可解释性更好?
A:嵌入模型得到的W2V相似度,和股票市值、行业特征之间的单调性更强(图4.3-图4.6):对全市场股票根据市值排序分成五组(或根据同行业/不同行业分两组),每组内计算股票两两之间W2V相似度(或人工关联度)均值,发现W2V相似度随市值增大而减小(且同行业的W2V相似度更高),并且分组之间的平均W2V相似度差异比平均人工关联度差异更明显。因此,W2V相似度和市值、行业分类之间的相关性更强,更能被股票显性特征所解释。
Q:为什么认为W2V相似度牵引因子评估的表现更好?
A:在因子评估时,首先,IC指标和ICIR指标,W2V相似度牵引因子比人工关联度牵引因子更高,说明因子值和未来收益的相关性更高,且相关性波动更小,表明前者的预测能力好于后者;其次,根据因子值大小排序,将每天的股票分成五组,对比因子值最高组、因子值最低组、基准指数(中证全指)的历史收益率表现,发现最高组能够稳定地战胜全市场,最高组-最低组能够获得稳定的对冲表现,上述投资组合的历史收益表现,包括收益率、夏普率、回撤、胜率等,W2V相似度牵引因子均好于人工关联度牵引因子,因此可以认为W2V相似度牵引因子表现更好。
Q:为什么建模时使用了全体A股共同基金,而不对股票型、混合型、债券型基金进行区分?
A:数据处理过程中,去除了持有A股金额占净值比例不足20%的基金以及持有A股数量少于10只的基金,一定意义上能够筛选到尽可能多的关注A股、进行审慎投资的基金。本文旨在用嵌入方法尽可能重复地利用基金持股数据提取机构投资者视角下的股票特质,这部分特质在理论上来源于买方持股需求和股东共同决策,更多来源于对广泛机构投资者的覆盖、而非专精于某方面股票特质进行相应投资的少数机构;此外,本文使用无监督的嵌入模型,不希望引入太多主观筛选的先验逻辑。
Q:嵌入模型对全市场的基金都均等地予以关注,是否会过度关注小基金、而对少部分大基金的影响力考虑不足?
A:确实会,这也是第五章结论与展望部分提出的不足。但是在嵌入模型中,很容易在损失函数中对不同的基金根据影响力进行加权,影响力可由基金规模、基金历史业绩等代理。但是,权重的代理变量的选取同样会引入先验逻辑,影响本文研究主题的普遍性。根据作者对主动基金的了解,相对不重要的小基金会对影响力更大的大基金的持仓行为进行跟随和模仿,主动基金管理人之间具有抱团倾向,而小基金“特立独行”也会因为和大资金的买卖行为不一致而更有可能被市场淘汰,因此等权重地考虑小基金和大基金并不必然导致对大基金的影响力考虑不足。
Q:你认为模型学习到的是主动基金持股行为中所包含的观点,如果根据这些观点进行投资,是否会意味着会和公募的投资行为趋同?公募渴望把基金规模做大来获取管理费,可能会集中持有少数重仓股,跟随公募的持股是否明智?
A:不会和公募行为趋同。模型学习的是基金持股中的股票关联,能够帮助分散化地发现更多相关联的股票。如果发现某只股票相对高关联的其他股票历史表现不佳,则更可能说明该股票市价被低估,模型的价值正在于发现相关联的股票,对“欠涨”的股票进行持有,而非买入已经被基金重仓的股票。本文认为公募持股当中蕴含的更多是管理人分析得出的公司基本面状况和行业竞争格局,因此模型识别的股票关联更多是上市公司基本面状况、业务经营、发展潜力上的相似性;围绕这些相似性,寻找具有相同基本面状况但是价值被低估的公司,是关联动量因子能够持续有效的原因。因此,根据模型对公司关联的刻画进行投资,并不一定是对公募行为进行跟随,也可能是公募的“盲区”做补充,能够和公募持仓互补来促进市场有效。