稀疏ARFF文件的Weka字符串属性

| 我正在尝试使用Weka进行文本分类。 为此,使用稀疏ARFF数据文件格式是有意义的。 使用Weka 3.7.2,我尝试: 使用以下命令将文本目录转换为Instances对象 TextDirectoryLoader。 使用StringToWordVector将前一阶段产生的字符串转换为数字。 第一阶段运作良好。第二阶段引起了问题,在 Weka的ARFF文件格式规范:   警告:从具有字符串属性的数据集中保存SparseInstance对象存在一个已知问题。在Weka中,字符串和标称数据值存储为数字。这些数字充当可能的属性值数组的索引(这非常有效)。但是,第一个字符串值被分配了索引0:这意味着在内部将该值存储为0。写入SparseInstance时,不会输出内部值为0的字符串实例,因此它们的字符串值会丢失(当再次读取arff文件,默认值0是其他字符串值的索引,因此属性值似乎已更改)。 ARFF格式建议此解决方案:   要解决此问题,请在索引0处添加一个虚拟字符串值,该值在您声明可能在SparseInstance对象中使用并保存为Sparse ARFF文件的字符串属性时永远不会使用。 我正试图做到这一点-添加一个虚拟字符串。我未能手动执行此操作(通过编辑ARFF文件)。完成此操作的任何人都可以发布示例吗?可以是程序段中的示例,也可以是经过适当修改的ARFF文件,或者可以使用其他方法进行示例? 谢谢。     
已邀请:
不要直接编辑arff文件。 我在这里回答了类似的问题: Weka打印稀疏Arff文件 使用相同的代码示例。     

要回复问题请先登录注册