解释mahout clusterdumper的输出
|
我对爬网的页面(超过25K个文档;个人数据集)进行了集群测试。
我已经完成了clusterdump:
$MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txt
运行集群转储程序后的输出显示为25个元素\“ VL-xxxxx {} \”:
VL-24130{n=1312 c=[0:0.017, 10:0.007, 11:0.005, 14:0.017, 31:0.016, 35:0.006, 41:0.010, 43:0.008, 52:0.005, 59:0.010, 68:0.037, 72:0.056, 87:0.028, ... ] r=[0:0.442, 10:0.271, 11:0.198, 14:0.369, 31:0.421, ... ]}
...
VL-24868{n=311 c=[0:0.042, 11:0.016, 17:0.046, 72:0.014, 96:0.044, 118:0.015, 135:0.016, 195:0.017, 318:0.040, 319:0.037, 320:0.036, 330:0.030, ...] ] r=[0:0.740, 11:0.287, 17:0.576, 72:0.239, 96:0.549, 118:0.273, ...]}
如何解释此输出?
简而言之:我正在寻找属于特定集群的文档ID。
的意义是什么 :
VL-x
n = y c = [z:z \',...]
r = [z \'\':z \'\'\',...]
0:0.017是否表示\“ 0 \”是属于此群集的文档ID?
我已经在mahout维基页面上阅读过CL,n,c和r的含义。但是,有人可以向我更好地向他们解释,还是可以指向对它进行更详细解释的资源?
抱歉,如果我要问一些愚蠢的问题,但是我是新手,是apache mahout,并将其用作我的课程分配的一部分。
没有找到相关结果
已邀请:
4 个回复
疾桓
基本上,您需要从HDFS系统下载clusteredPoints,并编写自己的代码以输出结果。这是我编写的用于输出聚类点成员资格的代码。
渐首洽陈染
版萍层分
亲奋漏