产品中心

欧宝直播体育


欧宝直播体育官网

欧宝直播在线观看:数量化投资模型 常用的基础数据处理方法(三)文末有彩蛋

  。所以只能祈祷写这样的知识文章不要掉粉,大家也别放弃阅读。寻找这些函数,然后寻找它在模型里的用途,多做测试,一个一个策略就在你眼前。

  还有更为科学的方法,我们常用z-score标准化,它是一个样本与平均数的差再除以标准差的过程。

  Z值的量代表着原始数据和母体平均值之间的距离,是以标准差为单位计算。在原始数据低于平均值时Z则为负数,反之则为正数。

  z-score可以回答这样一个问题:“一个给定分数距离平均数多少个标准差?”在平均数之上的样本值会得到一个正的z-score数值,在平均数之下的样本值会得到一个负的标准z-score值。

  需要说明的是,z-score没有改变数据的分布情况,可以理解为:没有改变数据点之间的距离和方向,这个统计量在执行z-score前后,概率密度函数是不变的(很重要,所以我们可以大胆用它)。

  一般我们在做完z-score之后,会寻找并删除在+-3到5个标准差之外的数据。其matlab代码如下:

  可以用boxplot(SA)观察处理前后的结果,除了一些离群点之外,数据基本上被规整到了一个区间。

  果然,分布没有发生变化,只是数值规整到一个区间。Z_Score标准化过程没有改变概率密度函数,只是做到了去量纲。

  中位数大家明白,是指将统计总体中的各个变量值按大小顺序排列起来形成一个数列,处于变量数列中间位置的变量值就称为中位数。

  MAD(Median absolute deviation)绝对中位值,也被翻译为中位数绝对偏差,是先求出给定数据的中位数,然后原数列的每个值与这个中位数求出绝对差,然后新数列的中位值就是MAD。

  X-midaian(X)可以理解为:每一个样本和自己的中位数的距离,然后对距离求中位数值,就得到了MAD。

  在股票多因子模型数据清洗环节中,研报上用过这样一种方法,我们也认为这种方法很管用。将个股因子值计算MAD,然后将大于“因子值中位数+3*1.4826*MAD”的值,或小于“因子值中位数-3*1.4826*MAD”的值定义为异常值。这里的1.4826*MAD大概是一个标准差的宽度。

  CV是很多人忽略掉的一个评估方法,变异系数 C·V =( 标准差 SD / 平均值Mean )× 100%。

  我们一般这样理解这个公式,它为不同价格量纲之间的标准差,找到了一个公平对比的方法。比如A的价格在1万元附近波动,B的价格在50元附近波动,只使用标准差来衡量单一价格的波动没错,但是要把两个价格对比,肯定就错了。所以通过此方法消除价格量纲,好放在一起比较,或者用同一标准对待。

  在交易策略中,CV的用途是让模型可以应对多个价格不同的时间序列,以同一个CV值作为阈值,就可以实现对于所有价格的控制了。比如,当CV大于某个值时,屏蔽一部分交易,实现了对于过度波动的过滤,或者屏蔽部分交易,实现了简单的头寸规模管理。

  关于CV,我们还经常用它分析绩效报告。比如我们可以评价两种方法产生的TOP100组模型参数的CV,如果有多个参数,都可以逐一评定。在性能难分上下的时候,一般选择参数CV值较小的一种模型使用,它代表的含义是——该模型能够将优势参数聚集在一个(或少数几个)类似参数高原的区域。

  而CV值较大时,意味着你的参数曲面图绘制出来后,可能优势参数分布在各个区域,这很可能是模型很危险的不稳定状态(想象高性能参数大面积呈现尖峰出现,密集恐惧症的感觉)。

  对数是一个非常好的工具,我们对他不多的印象来自于上学的时候,对数函数y=logax 的定义域是{x 丨x0},对数函数的函数图像恒过定点(1,0),a1时单调递增,0a1时单调减函数,无周期,不对称等等……

  比如说,ln(P1) - ln(P0) 约等于0期到1期的收益率(本来收益率 = (P1 - P0) / P0),而且计算多期,只需要将区间内的每个线性相加,即可得到,计算简便。此时利用的对属性值是Ln(1+x)≈x。

  如果把各期的值取对数,连续复合收益率(Continuously Compounded Return)可以直接向减得出,乘除计算转化为加减计算。

  由连续符合收益率,可推出单期简单收益率和多期简单收益率。时间序列一般是单位根(随机)序列,而收益率是平稳(Stationary sequence)序列。

  另外,在数据分析时,如果数据异方差(heteroscedasticity,随均值增加的标准差增加)很大,一般要取对数。异方差看似生疏,其实有个概念很耳熟,经典线性回归模型重要假定:总体回归函数中的随机误差项满足同方差性(完整要求是误差项满足零均值,同方差,无自相关,零协方差),即它们都有相同的方差。

  图是知乎上的(),我比较懒惰地抄过来,这种图形化的概念解读非常容易理解,左图是美国发电量,随着总量的放大,季节性波动增加,数据的方差发生变化(越来越大)。右图是做过log对数处理的,情况变得好了很多,显然先期和后期的波动幅度(方差)变得更加稳定了。

  异方差会导致回归计算不准,比如:商品价格变化一般都存在异方差,价格越高时,变化越剧烈,实际上变化率是比较稳定的,但是变化量在不同时刻显著变化。

  具体的查阅资料可知:异方差性的存在,导致我们直接应用最小二乘法估计回归模型,将得不到准确、有效的结果。

  所以引入对数变换,对价格做对数处理,可消除这种数量级相差很大的情况,通过将大于中位数的值按一定比例缩小,从而形成正态分布的数据,在回归问题中得到更准确的答案。

  今晚10点在楼下跑步,突然一只动物跑上前来,顿时吓一跳。原来是一只黑白相间的猫,它拦住我的去路,还把鼻子凑上来闻,我停下来等它表明自己的意向,一般动物拦住你,是在求救。

  但是它好像没有想带我去哪里,只是发出叫声,瞪着大眼睛看着我,看样子是饿了。我上楼取了一片面包,出门下楼,它果然还在。吃了一半,基本上饱腹,就坐在草地上。

  我看了它喝水的环境,树下(好在这小区树比较多,最近雨水也多)一个泡沫盒,泥土和树叶沉在底部,比较脏。但是这个盒子,也有可能是热心人放的。以前我养过狗,所以知道这些流浪动物生存不易,把盒子拿回家洗干净,盛了净水器的水,下楼重新放回原位。可惜这时它已经跑了,院子里找了两圈也不见回来,随它去吧。

  猫敢于向陌生人求救,流浪狗好像很少有这种举动,按理来说狗和人的接触更紧密,猫比较疏远,或许是饿坏了。当时它拦住我的场景,它很像吉卜力工作室作品中,《猫的报恩》里那只小猫小雪YUKI,主人公小时候救了这只猫,最后她帮助小春顺利离开猫的王国。

  这些宫崎骏的经典动画片,是在今年上半年投资回撤期中看完的,除了对动画角色印象很深,价值观也令人难忘。

上一篇:精彩集锦:园区招商100个知识点! 下一篇:转移支付办法的通知
南昌地址:
江西省南昌国家高新开发区高新大道590号泰豪信息大厦
总机:0791-88105588
传真:0791-88106688
邮箱:manager@www.huidahs.com
上海地址:
上海市浦东新区张东路1387号科技领袖之都19栋01座
总机:021-68790275
传真:021-68790300