k最近邻分类器,但使用分布?

| 我正在为一些2D数据构建分类器。 我有一些训练数据,我知道这些训练的课程,并在图表上绘制了这些数据以查看聚类。 对于观察者来说,有明显的,单独的簇,但是不幸的是它们分散在直线上而不是紧密的簇中。一条线扩展线以大约80度角上升,另一条线扩展线与水平线成大约10度角,但所有三个线点似乎都指向原点。 我想对某些测试数据执行最近邻分类,从外观上看,如果测试数据与训练数据非常相似,则三邻域分类器可以很好地工作,除非数据接近图的原点,在这种情况下,三个群集非常靠近,可能会出现一些错误。 我应该为我的聚类得出一些估计的高斯分布吗?如果是这样,我不确定如何将其与最近的邻居分类器结合使用? 感谢您的任何投入。 干杯
已邀请:
在运行最近邻居之前,将所有点都转换为[r,angle],并将r缩小至0到90的范围。 为什么呢NN使用点与中心之间的欧几里得距离(在大多数实现中), 但是你想要
distance( point, centre )
更像 sqrt((point.r-center.r)^ 2 +(point.angle-center.angle)^ 2) 比sqrt((point.x-centre.x)^ 2 +(point.y-centre.y)^ 2)。 将比例缩小到30? 10?重量角将大于r,这似乎是您想要的。
为什么要使用k-NN?任何线性分类器都可以解决问题。尝试使用SVM解决它,您将获得更好的结果。 如果您坚持使用kNN,则显然必须缩放功能并将其转换为极性功能,如此处所述。

要回复问题请先登录注册