金融数据具有低信噪比的特点,难以提取有效信号。如果模型调整不当,就很容易学习“噪音”。由于这一特点,量化投资在模型开发和调整中特别强调避免过度拟合。此外,证券交易数据等时间序列有时间序列(时间不能倒流),金融市场总是有游戏,规律有时间变化的特点。量化投资方法论的目的是用历史数据预测未来,因此必须避免未来信息的引入,合理评估历史回测。
如果金融数据按数据格式分类,可分为标准化数据和非标准化数据。标准化数据常见,如交易所原始数据、原始市场等;非标准化数据主要是文本数据,包括金融新闻、金融论坛问答、卖方分析师投资报告、第三方机构提供的特殊数据等,比标准化数据更复杂。为了应用于定量战略开发,必须首先进行数据清理等结构化处理。
如根据数据来源对金融数据进行分类,可分为价值数据、基本面数据、事件驱动数据和替代数据。
价格数据包括所有可以从市场交易行为中提取的信息,不限于股票和其他资产的价格,以及衍生的技术指标,如日间价格数据(日K)、日内量价数据(分时数据)、逐笔数据(股票的每笔交易和挂单数据)。
基本数据包括宏观基本面、产业链上下游发展、产业发展趋势、上市公司财务报表等数据。
在金融领域,“事件”通常是指“投资者的预期可能会在短期内发生变化,对公司的基本面或其股价产生重大影响”。“事件驱动”是指通过预测市场对特定事件的反应不足或过度反应,判断股价的变化,如股票回购、股东增持、市场炒作等,获得超额回报。
另类数据是一个相对的概念。目前,ESG数据、社交媒体评论、卫星图像等所有非传统来源的新数据都在海外得到了成熟的应用。
一般来说,数据点和结构化数据越多,就越有利于量化投资的建模。如果一个重大事件在历史上没有发生过或只发生过几次,那么基于过去总结的“规律”在现阶段可能并不有效,也很难找到合适的数据进行培训,从而影响可信度。
市场观察所刊载信息,来源于网络,并不代表本媒体观点。本文所涉及的信息.数据和分析均来自公开渠道,如有任何不实之处、涉及版权问题,请联系我们及时处理。本文仅供读者参考,任何人不得将本文用于非法用途,由此产生的法律后果由使用者自负。投诉举报请联系邮箱:News_Jubao@163.com
聚焦商业经济报告和前瞻商业趋势分析,市场观察非新闻媒体不提供互联网新闻服务;