如何为多级建模组织数据-决策树,分类或回归

|| 我有三个表-销售经理,客户和订单。每个销售经理有多个客户,每个客户可以有多个订单。 我有兴趣确定销售经理的某些属性和客户的属性是否会导致特定产品的销售(假设产品A是/否)。 假设我有3个销售经理,10个客户和20个订单。 我应该将数据集结构为3行,10行还是20行。请指教。 另外,决策树和分类算法是否可以自动理解经理,客户和订单之间的层次关系? 谢谢。     
已邀请:
我认为您应该从中得出一个大的特征矩阵。假设您有桌子 销售经理(id attr_1 ... attr_m) 客户(id attr_1 ... attr_n sales_manager_id) 订单(id为product_id_1 ... product_id_l customer_id) 那么以以下形式创建矩阵是最合理的 矩阵: product_id order_attr_1 ... order_attr_l customer_attr_1 ... customer_attr_n ... manager_attr_1 ... manager_attr_m 现在您有了20 * l行矩阵,其中包含按特定顺序给出的所有属性。 您可以以最简单的形式使用以下矩阵进行分类。如果属性太多,则首先使用PCA是合理的。也许您应该尝试使用Weka看看,结果如何。 考虑到您有关层次关系的问题,分类算法将无法明确理解它们。 我会在这里推荐这本书:数据挖掘概论,因为它回答了您的大多数问题。     

要回复问题请先登录注册