5月13日,机器学习与人工智能顶级期刊《Journal of Machine Learning Research》(英文缩写JMLR)刊发我校伟德bv1946官网王文武博士的最新研究成果:Robust Estimation of Derivatives Using Locally Weighted Least Absolute Deviation Regression,论文链接:http://www.jmlr.org/papers/volume20/17-340/17-340.pdf。王文武博士为该论文第一作者与通讯作者,源自英国始于1946作为第一单位与通讯单位。
随着机器学习与人工智能的发展,更多数据利用计算机设备等时间间隔自动收集。针对该类型数据,其变化趋势(导数估计)受到越来越多的关注,如探测气候变化、推断细胞增长率等。基于最小二乘的局部多项式回归是估计导数的标准方法,在正态分布假设下是最有效的。然而在实际应用中,非正态数据是非常常见的,包含重尾(含异常值点)、偏态或者多峰分布等。面对非正态的数据,基于最小二乘的估计不能保证估计效率,甚至得到错误的结论。
本论文结合差分序列和稳健回归,提出了局部加权最小一乘回归方法,解决了非正态分布样本中估计效率低和稳健性差的问题。首先,新的估计不同于最小二乘估计,对异常值或者重尾分布是稳健的;不同于最小一乘估计,不是依赖于密度函数在一个点的信息,而是密度函数在所有点的信息平均,因而比最小一乘估计更加稳健、效率更高。其次,不论误差分布形式如何,对称差分得到的误差序列自动保证分布函数中位数为零点,且关于零点对称。再次,基于随机差分的估计渐近等价于无限复合分位数回归估计,即一次回归等价于无穷多次分位数回归,极大地提高了计算效率。最后,通过影响函数分析指出:基于最小二乘的差分方法本质上不同于基于最小一乘估计的差分方法,这为有效地探索密度函数信息提供了新的思路。此外,把该稳健方法应用于近十年中国房价数据,挖掘到房价的增长趋势。
王文武博士为伟德bv1946官网副教授,系机器智能与数据分析中心研究人员。本论文是继王文武副教授2015年在JMLR发表Derivative Estimation Based on Difference Sequence via Locally Weighted Least Squares Regression研究成果的深入延伸和拓展,两篇文章共同解决了导数估计中的收敛速度和估计效率的问题。2015年发表论文链接:http://www.jmlr.org/papers/volume16/wang15b/wang15b.pdf,为山东省以第一作者与通讯作者在JMLR上发表的首篇论文。
JMLR建刊于2000年,是国际上公认的计算机领域顶级期刊之一,主要刊登机器学习与人工智能领域的高质量前沿研究成果。同时,JMLR也是中国计算机学会推荐的机器学习、人工智能和模式识别领域的四大A类期刊之一。