当前位置:
对工业大数据建模的一点看法
回复 | 人气 | 打印
gchui 个人主页 给TA发消息 加TA为好友 发表于:2019-09-09 13:19:12 楼主

世界上两个著名法系:大陆法系和英美法系。前者重视条文,条文规定该怎么判就怎么判。后者重视案例,原则上根据过去的案例判罚。这两种做法,与两种数学建模方法类似。

 

第一种建模方法是要得到一个Y=F(x)。F是个固定的映射,输入X则可计算Y。就像大陆法系的做法。第二种方法则是要建立一些案例库;输入一个X后,从案例库中找一个和X接近的X’;计算Y的办法就是对X’对应的Y’进行修正。就像英美法系的做法。

 

大陆法系对立法质量要求别高,英美法系对法官的要求高。所以,如果法官水平不高,大陆法系更公平一些;而如果法官水平比较高,则英美法系更灵活一些,更容易做到与时俱进。

 

传统的建模如回归,属于第一类建模方法。要建好这种模型,最好对机理有较深的理解、自变量的数目一般不能太多。近邻方法、CBR方法(基于案例的推理),则属于第二类方法。但总体上来讲,过去人们用的比较多的还是第一种方法。然而,我觉得:工业大数据的优势,在于它第二类方法:让建模变得容易、灵活性增加。对这个观点,肯定会存在争议。但我根据经验,认为是这样的。

 

我曾经把工业大数据的优势进行总结。其中一种就是“样本=全体”。这是用近邻方法或CBR方法的基础:比较容易找到接近的案例。

 

但实践中,用好CBR、近邻方法并不太多。原因和“英美法系”的问题一样:对挑选案例的要求比较高。当自变量很多的时候,找到合适的近邻并不容易。这个时候,自变量的“权重”选择是一种艺术。好在权重的选择也有些办法,比如回归或机理。最好能够对机理理解得深一点。

 

在实践中,建模最大的困难在于数据质量:精度和完整性。如果建模的数据来自工作点附近,则数据的信噪比就会很低。用CBR、近邻方法时,显著的噪声干扰就会被带进来、导致误差很大。数据完整性指的是:系统性干扰不可见——某个案例非常特殊,但你不知道它为什么特殊。

 

当然,这两个问题在大数据的背景下也容易处理:对第一种问题,可以用一些简单的办法滤波。对第二种问题,可以依赖于大数据的完整性,总能找到原因。

 

所以我认为,在大数据背景下,CBR、近邻方法的应用会多起来。应用范围会很广。但用好这些方法,却是需要技巧的。

来源:微信号 蝈蝈创新随笔

作者:郭朝晖

该作品已获作者授权,未经许可,禁止任何个人及第三方转载。


分享到: 关注收藏 邀请回答 回复 举报


楼主最近还看过


周点击排行
周回复排行
最新求助
Advertisement

 幸运飞艇官网 秒速赛车平台 秒速赛车平台 幸运飞艇注册 幸运飞艇注册 秒速赛车平台 秒速赛车平台 幸运飞艇注册 秒速赛车平台 奔驰彩票app