分类逻辑回归,库

| 我目前正在研究一个有关地理区域分割的项目,该计划基于每个区域中生长在多个重要层上的植物(也就是说,每个分割层的含义在其他层中都是唯一的) 为此,我们使用逻辑回归从区域列表(每个区域属于每个层的段以及它们包含的植物)到每个段组合中植物生长的可能性。目前,我们正在使用SPSS,链接到分段的C#实现。 到目前为止,一切都很好。问题是,在寒冷的天气里,SPSS会像糖蜜一样缓慢。对于整套设备(2500个工厂和565个地区),一次运行大约需要半个月。那是我们没有的时间,所以现在我们使用的是缩写的数据集,但是即使这样也要花费几个小时。 我们已经研究了其他具有逻辑回归的库(特别是Accord.NET和Extreme Optimization),但都没有分类逻辑回归。 在这一点上,我可能应该说明分类逻辑回归的含义。假设我们提供给统计引擎的数据集中的每一行在每一层都有一个变量,而对于目前我们感兴趣的工厂有一个变量,则将这些层变量的值视为类别。 0并不比1更好或更坏,只是有所不同。我们希望从统计信息引擎中获得的是每个图层变量的每个类别的值(当然,还有一个截距),因此,在一个包含3个分段的层和一个包含2个分段的层的设置中, 5个值和截距。 我应该注意,我们已经在Accord.NET(必须在库外部完成)和Extreme Optimization(已在库中提供一些支持)中试验了伪变量或指标变量。产生必要的结果。 TL; DR 因此,长话短说,有人知道C#中分类逻辑回归的一个好的解决方案吗?只要它稳定且相当快,它可以是一个类库,也可以是一个插入外部统计引擎的接口。     
已邀请:
产生具有分类输入变量的逻辑回归的标准方法是将分类变量转换为虚拟变量。因此,只要对输入数据执行适当的转换,您就应该能够使用您在问题中提到的任何逻辑回归库。 从具有n个类别的一个分类变量到n-1个数字虚拟变量的映射称为对比。这篇文章对如何组合对比有进一步的解释。 请注意,虚拟变量的数量比类别值的数量少1。如果您尝试为每个类别值使用一个虚拟变量,则会发现最后一个虚拟变量并不独立于前面的虚拟变量,并且如果您尝试对它进行回归模型拟合,则会得到错误(或无意义的系数) 。 因此,以一个带有截距,3级分类输入变量和2级分类输入变量的模型为例,证明的数量将为1 +(3-1)+(2-1)= 4。     

要回复问题请先登录注册