稀疏ARFF文件的Weka字符串属性

| 我正在尝试使用Weka进行文本分类。为此，使用稀疏ARFF数据文件格式是有意义的。使用Weka 3.7.2，我尝试：使用以下命令将文本目录转换为Instances对象 TextDirectoryLoader。使用StringToWordVector将前一阶段产生的字符串转换为数字。第一阶段运作良好。第二阶段引起了问题，在 Weka的ARFF文件格式规范：警告：从具有字符串属性的数据集中保存SparseInstance对象存在一个已知问题。在Weka中，字符串和标称数据值存储为数字。这些数字充当可能的属性值数组的索引（这非常有效）。但是，第一个字符串值被分配了索引0：这意味着在内部将该值存储为0。写入SparseInstance时，不会输出内部值为0的字符串实例，因此它们的字符串值会丢失（当再次读取arff文件，默认值0是其他字符串值的索引，因此属性值似乎已更改）。 ARFF格式建议此解决方案：要解决此问题，请在索引0处添加一个虚拟字符串值，该值在您声明可能在SparseInstance对象中使用并保存为Sparse ARFF文件的字符串属性时永远不会使用。我正试图做到这一点-添加一个虚拟字符串。我未能手动执行此操作（通过编辑ARFF文件）。完成此操作的任何人都可以发布示例吗？可以是程序段中的示例，也可以是经过适当修改的ARFF文件，或者可以使用其他方法进行示例？谢谢。

已邀请:

1 个回复

疾桓

不要直接编辑arff文件。我在这里回答了类似的问题： Weka打印稀疏Arff文件使用相同的代码示例。

要回复问题请先登录或注册

稀疏ARFF文件的Weka字符串属性

1 个回复

发起人

arff

sparse_matrix

weka

file_format

问题状态

稀疏ARFF文件的Weka字符串属性

与内容相关的链接

1 个回复

发起人

arff

sparse_matrix

weka

file_format

问题状态