Zend Lucene - 标记瑞典语字符

我使用Zend Lucene来索引瑞典文本。问题在于,lucene在瑞典字符tokenäö中标记了单词。例如,单词“världens”在索引中变成两个单词“v”和“ldens”。 有没有办法添加zend lucene应该接受的字符而不是标记化?     
已邀请:
使用UTF-8兼容的文本分析器而不是默认的文本分析器进行标记化。请注意,这需要PHP的PCRE(Perl兼容的正则表达式)库使用UTF-8支持进行编译(默认情况下,如果您使用与PHP捆绑的PCRE库,但如果使用共享库则可能未启用)。对于UTF-8兼容分析器的不区分大小写的版本,还需要启用mbstring扩展。     
使用分析仪。请参阅有关文本分析的文档,使用utf8和有关编写自己的分析器的文档。我建议你只使用UTF-8分析仪。     

要回复问题请先登录注册