如何在ANTLR中指定“带有空格的贪婪标识符”?

| 假设我们输入的内容看起来像简单的英语语句的序列,每个语句位于单独的行上,如下所示:
Alice checks
Bob bets 100
Charlie raises 100
Alice folds
让我们尝试使用以下语法对其进行解析:
actions: action* EOF;
action: player=name (check | call | raise | fold) NEWLINE;
check: \'checks\';
call: \'calls\' amount;
raise: \'raises\' amount;
fold: \'folds\';

name: /* The subject of this question */;
amount: \'$\'? INT;

INT: (\'0\'..\'9\')+;
NEWLINE: \'\\r\'? \'\\n\';
不同动词的数量是固定的,但是有趣的是,我们尝试匹配的名称中可能有空格-动词也可能是其中的一部分!因此,以下输入有效:
Guy who always bets 100 checks
Guy who always checks bets 100
Guy who always calls folds
Guy who always folds raises 100
Guy who always checks and then raises bets by others calls $100
所以问题是:我们如何定义
name
,这样贪婪就足以吃掉我们通常视作动词的空格和单词,但又不是超级贪婪的,这样动词仍可以由
action
规则匹配? 我第一次解决此任务的尝试是这样的:
name: WORD (S WORD)*;
WORD: (\'a\'..\'z\'|\'A\'..\'Z\'|\'0\'..\'9\')+; // Yes, 1234 is a WORD, too...
S: \' \'; // We have to keep spaces in names
不幸的是,这与“总是下注的人”不匹配,因为
bets
不是
WORD
,而是由
bets
规则中的文字定义的不同记号。我想通过创建类似
keyword[String word]
的规则并使其与其他规则匹配,例如
keyword[\"bets\"]
而不是文字来解决该问题,但这就是我遇到的问题。 (我想我可以将所有动词作为有效的替代词列出来作为
name
的一部分,但感觉很不对。) 这里还有更多:所有
name
在使用前都已声明,因此在开始解析
action
之前我可以阅读它们。并且它们的长度不能超过MAX_NAME_LENGTH个字符。在这里有什么帮助吗? 无论如何,也许我做错了。 ANTLR专家,我能收到你的消息吗?     
已邀请:
        最简单的方法是对整个语法启用全局回溯。通常不建议这样做,但是我想您的语法会相对较小,在这种情况下,对解析器的运行时间影响不大。如果确实发现它变慢,则可以取消注释备忘选项,这将使解析器更快,但会消耗一些内存。 演示: in.txt 总是下注100张支票的家伙 总是下注100的家伙 总是打折的家伙 总是折叠的家伙加注100 总是检查然后由别人加注的家伙叫$ 100 扑克
grammar Poker;

options {
  backtrack=true;
  // memoize=true;
}

actions
  :  action* EOF
  ;

action
  :  name SPACES (bets | calls | raises | CHECKS | FOLDS) SPACES? (NEWLINE | EOF)
     {
       System.out.println($name.text);
     }
  ;

bets    : BETS SPACES amount;
calls   : CALLS SPACES amount;
raises  : RAISES SPACES amount;
name    : anyWord (SPACES anyWord)*;
amount  : \'$\'? INT;
anyWord : BETS | FOLDS | CHECKS | CALLS | RAISES | INT | WORD; 

BETS    : \'bets\';
FOLDS   : \'folds\';
CHECKS  : \'checks\';
CALLS   : \'calls\';
RAISES  : \'raises\';
WORD    : (\'a\'..\'z\' | \'A\'..\'Z\')+;
INT     : \'0\'..\'9\'+;
SPACES  : \' \'+;
NEWLINE : \'\\r\'? \'\\n\';
Main.java
import org.antlr.runtime.*;

public class Main {
  public static void main(String[] args) throws Exception {
    PokerLexer lexer = new PokerLexer(new ANTLRFileStream(\"in.txt\"));
    PokerParser parser = new PokerParser(new CommonTokenStream(lexer));
    parser.actions();
  }
}
运行Main类会产生: bart @ hades:〜/编程/ ANTLR / Demos / Poker $ java -cp antlr-3.3.jar org.antlr.Tool Poker.g bart @ hades:〜/编程/ ANTLR / Demos / Poker $ javac -cp antlr-3.3.jar * .java bart @ hades:〜/编程/ ANTLR / Demos / Poker $ java -cp。:antlr-3.3.jar主要 总是下注100的家伙 总是检查的家伙 总是打电话的家伙 总是折叠的家伙 总是检查然后由别人下注的家伙 编辑 您可以用另一种方法来实现:取消不希望
anyWord
匹配的令牌:
// other parser rules
anyWord : ~(SPACES | NEWLINE | DOLLAR); 

BETS    : \'bets\';
FOLDS   : \'folds\';
CHECKS  : \'checks\';
CALLS   : \'calls\';
RAISES  : \'raises\';
WORD    : (\'a\'..\'z\' | \'A\'..\'Z\')+;
INT     : \'0\'..\'9\'+;
DOLLAR  : \'$\';
SPACES  : \' \'+;
NEWLINE : \'\\r\'? \'\\n\';
现在,
anyWord
会匹配除
SPACES
NEWLINE
DOLLAR
\之外的所有令牌。请注意,词法分析器规则之内的“ 22”(否定字符)与解析器规则(诸项令牌!)之间的区别。     
        简单的解决方案:在空白处分割,逐个单词地反转输入,然后从右侧而不是从左侧进行解析。 (当然,这需要重写您的语法。)     

要回复问题请先登录注册