5.4 重新生成语法
Last updated
Last updated
要查看 CPython 3.9 中引入的新 PEG 生成器:pegen
,实际上,你可以更改部分 Python 语法。在 Grammar/python.gram
中搜索 small_stmt
,查看小语句的定义:
图片不翻译
需要关注的是行 'pass' { _Py_Pass(EXTRA) }
用于 pass
语句:
通过添加一个|
以及 proceed
字面量来更改此行以接受终结符号(关键字)'pass'
或者 'proceed'
作为关键字。
接下来,重建语法文件。CPython 附带了脚本可以自动实现语法重新生成。
在 macOS 和 Linux 上,可以运行 make regen-pegen
命令:
在 Windows 上,可以使用 --regen
标志来运行 PCBuild
目录中的 build.bat:
你应该能在输出上看到新的 Parser/pegen/parse.c
文件已重新生成。
当你重新编译 CPython 时使用重新生成的解析器表,它就将使用新的语法。使用上一章中用于操作系统的相同编译步骤。
如果你的代码编译成功,那么你就可以使用新的 CPython 二进制文件并启动一个交互式解释器。
在交互式解释器中,你可以尝试定义一个函数。用你编译进 Python 语法中的 proceed
关键字来替代 pass
语句。
恭喜你,你已经修改了 CPython 语法并且编译出属于你自己的 CPython 版本。
接下来,你会继续探索单词符号以及其与语法的关系。
注
译者注:“Token” 一词有多种翻译名称,大多数被翻译成 “记号”,但译者还是更认同《现代编译原理(赵克佳等人译)》中的翻译,将其翻译为 “单词符号” 更为贴切,简称 “单词”。
在 Grammar
目录中,除了语法文件之外,还有一个 Grammar/Tokens
文件,其包含了分析树的叶子节点上能找到的所有类型。每个单词都有一个名字和一个生成的唯一 ID。这些名字使引用分词器(tokenizer
)中的单词符号变得更简单。
注
Grammar/Tokens
文件是 Python 3.8 的新特性。
比如,左括号被称为 LPAR
,而顿号被称为 SEMI
。你会在本书后半部分看到这些单词符号。
与 Grammar
文件一样,如果你修改了 Grammar/Token
文件,你就需要重新运行 pegen
。
你可以使用 CPython 的 tokenize
模块查看单词符号的运行情况。
注
用 Python 编写的分词器是一个实用程序模块。实际的 Python 解析器使用一个不同的过程来识别单词符号。
创建一个 test_tokens.py
的简单 Python 脚本:
将 test_tokens.py
文件输入到 Python 的 tokenize
标准库中,你会看到一系列按行展开的单词和符号。
使用 -e 标志来输出准确的单词符号名称:
在输出中,第一列是行和列的坐标范围,第二列是单词符号名称,而最后一列则是单词符号的值。
在输出中,tokenize
模块已经暗示了几个单词符号:
ENCODING
单词符号用于 utf-8
;
DEDENT
用于结束函数申明;
ENDMARKER
用于结束文件;
结尾处有一个空行。
一个最佳实践是在 Python 源文件末尾中保留一个空行。如果你忘记这样做,那么 CPython 会为你自动补上空行。
tokeinze
模块是用纯 Python 语言写的,相关代码位于 Lib/tokenize.py
中。
要查看 C 解析器的详细读数,你可以使用 -d
标志来运行 Python 的调试构建。使用之前创建的 test_tokens.py
脚本,用如下命令执行:
代码不翻译
在输出中,你可以非常明显的看到 procceed
是一个关键词。在下一章节中,你将会看到执行 Python 二进制文件如何进入到分词器以及从那里执行代码会发生什么。
如要你要清理代码,请回退对 Grammar/python.gram
的修改,重新生成语法文件以及清理构建和重新编译:
对于 macOS 或者 Linux 使用以下选项:
$ git checkout -- Grammar/Grammar
$ make regen-grammar
$ make clobber
$ make -j2 -s
或者对于 Windows 使用以下选项:
> git checkout -- Grammar/Grammar
> build.bat --regen
> build.bat -t CleanAll
> build.bat -t Build