Liblinear如何使用。

一般来说,我在机器学习和文本挖掘方面还很陌生。我注意到一个名为Liblinear https://github.com/tomz/liblinear-ruby-swig的红宝石库的存在。 到目前为止,我要做的是训练该软件,以识别文本是否提及与自行车有关的任何内容。 有人可以请我强调我应该遵循的步骤(即:预处理文本及其操作方法),共享资源以及理想地共享一个简单的示例来使我前进。 任何帮助都可以,谢谢!     
已邀请:
经典方法是: 收集输入文本的代表性示例,每个示例均标记为相关/不相关。 将样本分为训练集和测试集。 提取训练集所有文档中的所有术语;称这个词汇为V。 对于训练集中的每个文档,请将其转换为布尔向量,其中i \'th元素为true / 1(如果词汇表中的i \'项出现在文档中)。 将向量化的训练集输入学习算法。 现在,要对文档进行分类,请按照步骤4对其进行矢量化处理,然后将其提供给分类器以获取相关标签。将此标签与实际标签进行比较,看是否正确。使用这种简单的方法,您应该至少能够获得80%的准确度。 为了改进此方法,请用术语数代替布尔值,并用文档长度或更好的tf-idf分数进行标准化。     

要回复问题请先登录注册