如何在ANTLR中指定“带有空格的贪婪标识符”？

| 假设我们输入的内容看起来像简单的英语语句的序列，每个语句位于单独的行上，如下所示：

Alice checks
Bob bets 100
Charlie raises 100
Alice folds

让我们尝试使用以下语法对其进行解析：

actions: action* EOF;
action: player=name (check | call | raise | fold) NEWLINE;
check: \'checks\';
call: \'calls\' amount;
raise: \'raises\' amount;
fold: \'folds\';

name: /* The subject of this question */;
amount: \'$\'? INT;

INT: (\'0\'..\'9\')+;
NEWLINE: \'\\r\'? \'\\n\';

不同动词的数量是固定的，但是有趣的是，我们尝试匹配的名称中可能有空格-动词也可能是其中的一部分！因此，以下输入有效：

Guy who always bets 100 checks
Guy who always checks bets 100
Guy who always calls folds
Guy who always folds raises 100
Guy who always checks and then raises bets by others calls $100

所以问题是：我们如何定义name，这样贪婪就足以吃掉我们通常视作动词的空格和单词，但又不是超级贪婪的，这样动词仍可以由action规则匹配？我第一次解决此任务的尝试是这样的：

name: WORD (S WORD)*;
WORD: (\'a\'..\'z\'|\'A\'..\'Z\'|\'0\'..\'9\')+; // Yes, 1234 is a WORD, too...
S: \' \'; // We have to keep spaces in names

不幸的是，这与“总是下注的人”不匹配，因为bets不是WORD，而是由bets规则中的文字定义的不同记号。我想通过创建类似keyword[String word]的规则并使其与其他规则匹配，例如keyword[\"bets\"]而不是文字来解决该问题，但这就是我遇到的问题。（我想我可以将所有动词作为有效的替代词列出来作为name的一部分，但感觉很不对。）这里还有更多：所有name在使用前都已声明，因此在开始解析action之前我可以阅读它们。并且它们的长度不能超过MAX_NAME_LENGTH个字符。在这里有什么帮助吗？无论如何，也许我做错了。 ANTLR专家，我能收到你的消息吗？

已邀请:

2 个回复

混侩闯空坷

最简单的方法是对整个语法启用全局回溯。通常不建议这样做，但是我想您的语法会相对较小，在这种情况下，对解析器的运行时间影响不大。如果确实发现它变慢，则可以取消注释备忘选项，这将使解析器更快，但会消耗一些内存。演示： in.txt 总是下注100张支票的家伙总是下注100的家伙总是打折的家伙总是折叠的家伙加注100 总是检查然后由别人加注的家伙叫$ 100 扑克

grammar Poker;

options {
  backtrack=true;
  // memoize=true;
}

actions
  :  action* EOF
  ;

action
  :  name SPACES (bets | calls | raises | CHECKS | FOLDS) SPACES? (NEWLINE | EOF)
     {
       System.out.println($name.text);
     }
  ;

bets    : BETS SPACES amount;
calls   : CALLS SPACES amount;
raises  : RAISES SPACES amount;
name    : anyWord (SPACES anyWord)*;
amount  : \'$\'? INT;
anyWord : BETS | FOLDS | CHECKS | CALLS | RAISES | INT | WORD; 

BETS    : \'bets\';
FOLDS   : \'folds\';
CHECKS  : \'checks\';
CALLS   : \'calls\';
RAISES  : \'raises\';
WORD    : (\'a\'..\'z\' | \'A\'..\'Z\')+;
INT     : \'0\'..\'9\'+;
SPACES  : \' \'+;
NEWLINE : \'\\r\'? \'\\n\';

Main.java

import org.antlr.runtime.*;

public class Main {
  public static void main(String[] args) throws Exception {
    PokerLexer lexer = new PokerLexer(new ANTLRFileStream(\"in.txt\"));
    PokerParser parser = new PokerParser(new CommonTokenStream(lexer));
    parser.actions();
  }
}

运行Main类会产生： bart @ hades：〜/编程/ ANTLR / Demos / Poker $ java -cp antlr-3.3.jar org.antlr.Tool Poker.g bart @ hades：〜/编程/ ANTLR / Demos / Poker $ javac -cp antlr-3.3.jar * .java bart @ hades：〜/编程/ ANTLR / Demos / Poker $ java -cp。：antlr-3.3.jar主要总是下注100的家伙总是检查的家伙总是打电话的家伙总是折叠的家伙总是检查然后由别人下注的家伙编辑您可以用另一种方法来实现：取消不希望anyWord匹配的令牌：

// other parser rules
anyWord : ~(SPACES | NEWLINE | DOLLAR); 

BETS    : \'bets\';
FOLDS   : \'folds\';
CHECKS  : \'checks\';
CALLS   : \'calls\';
RAISES  : \'raises\';
WORD    : (\'a\'..\'z\' | \'A\'..\'Z\')+;
INT     : \'0\'..\'9\'+;
DOLLAR  : \'$\';
SPACES  : \' \'+;
NEWLINE : \'\\r\'? \'\\n\';

现在，anyWord会匹配除SPACES，NEWLINE和DOLLAR\之外的所有令牌。请注意，词法分析器规则之内的“ 22”（否定字符）与解析器规则（诸项令牌！）之间的区别。

旅牢斯讲

简单的解决方案：在空白处分割，逐个单词地反转输入，然后从右侧而不是从左侧进行解析。（当然，这需要重写您的语法。）

要回复问题请先登录或注册

如何在ANTLR中指定“带有空格的贪婪标识符”？

2 个回复

发起人

whitespace

identifier

antlr

grammar

ambiguity

问题状态

如何在ANTLR中指定“带有空格的贪婪标识符”？

与内容相关的链接

2 个回复

发起人

whitespace

identifier

antlr

grammar

ambiguity

问题状态