Java使用中的Stanford POS标记

Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
当我想将POS标签分配给句子时,这些是我得到的错误。我从文件中读取句子。最初(对于几句话)我没有得到这个错误(即不可言说的),但在读完一些句子之后会出现这个错误。我使用POS标签的v2.0(即2009),模型是
left3words
。     
已邀请:
我同意Yuval - 一个字符编码问题,但最常见的情况是文件是单字节编码,例如ISO-8859-1而标记器试图用UTF-8读取它。请参阅Wikipedia上对U + FFFD的讨论。     
这对我来说看起来像编码问题。你可以发布违规的句子吗?我在文档中找不到这个,但我会尝试检查文件是否采用UTF-8编码。     
我也遇到过这个问题。测试字符是否可标记的一种方法是检查它是否失败Character.isIdentifierIgnorable()。无法识别的字符将返回
true
,而所有可标记字符将返回
false
。     
如果您正在阅读DOC,可移植文档格式(PDF)中的内容,请使用Apache Tika。它将提取您的内容。它可能对你有帮助。 阿帕奇蒂卡 关于蒂卡 Apache Tika是一个工具包,用于使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容。它是用Java编写的,但包含一个用于其他语言的命令行版本。 有关Tika,错误跟踪器,邮件列表,下载等的更多信息,请访问http://tika.apache.org/     

要回复问题请先登录注册