CPython 实现原理
  • README
  • 一、简介
    • 1.1 如何使用此书
    • 1.2 额外材料和学习资料
  • 二、获取 CPython 源码
    • 2.1 源代码里有什么?
  • 三、准备你的开发环境
    • 3.1 选IDE还是编辑器?
    • 3.2 安装Visual Studio
    • 3.3 安装Visual Studio Code
    • 3.4 安装JetBrains Clion
    • 3.5 安装Vim
    • 3.6 总结
  • 四、编译 CPython
    • 4.1 在 macOS 上编译 CPython
    • 4.2 在 Linux 上编译 CPython
    • 4.3 安装自定义版本
    • 4.4 make 快速入门
    • 4.5 CPython 的 make 目标
    • 4.6 在 Windows 上编译 CPython
    • 4.7 PGO 优化
    • 4.8 总结
  • 五、Python 语言和语法
    • 5.1 为什么 CPython 是用 C 语言而不是用 Python 语言来实现
    • 5.2 Python 语言规范
    • 5.3 分析器生成器
    • 5.4 重新生成语法
    • 5.5 总结
  • 六、配置和输入
    • 6.1 配置状态
    • 6.2 构建配置
    • 6.3 从输入构建模块
    • 6.4 总结
  • 七、基于语法树的词法分析和解析
    • 7.1 具象语法树生成器
    • 7.2 CPython 解析器-分词器
    • 7.3 抽象语法树
    • 7.4 要记住的术语
    • 7.5 一个示例:添加一个约等于比较运算法
    • 7.6 总结
  • 八、编译器
    • 8.1 相关源文件
    • 8.2 重要的专业术语
    • 8.3 实例化一个编译器
    • 8.4 未来标志和编译器标志
    • 8.5 符号表
    • 8.6 核心编译过程
    • 8.7 汇编
    • 8.8 创建一个 Code Object
    • 8.9 使用 Instaviz 展示 Code Object
    • 8.10 一个示例:实现约等于操作符
    • 8.11 总结
  • 九、求值循环
    • 9.1 构建线程状态
    • 9.2 构建帧对象
    • 9.3 帧的执行
    • 9.4 值栈
    • 9.5 例子:在列表中添加元素
    • 9.6 总结
  • 十、内存管理
    • 10.1 C 中的内存分配
    • 10.2 Python 内存管理系统设计
    • 10.3 CPython 内存分配器
  • 十一、并行和并发
    • 11.1 并行和并发模型
    • 11.2 进程的结构
    • 11.3 多进程并行
    • 11.4 多线程
    • 11.5 异步编程
    • 11.6 生成器
    • 11.7 协程
    • 11.8 异步生成器
    • 11.9 子解释器
    • 11.10 总结
  • 十二、对象和类型
    • 12.1 本章的例子
    • 12.2 内置类型
    • 12.3 对象和可变长度对象类型
    • 12.4 类型类
    • 12.5 布尔和整数类型
    • 12.6 Unicode 字符串类型
    • 12.7 字典类型
    • 12.8 总结
  • 十三、标准库
    • 13.1 Python 模块
    • 13.2 Python 和 C 模块
  • 十四、测试套件
    • 14.1 在 Windows 上运行测试套件
    • 14.2 在 Linux 或 MacOS 上运行测试套件
    • 14.3 测试标志
    • 14.4 运行特定测试
    • 14.5 测试模块
    • 14.6 测试工具
    • 14.7 总结
  • 十五、调试
  • 十六、基准测试、性能分析和追踪
  • 十七、下一步计划
    • 17.1 为 CPython 编写 C 扩展
    • 17.2 改进你的 Python 应用程序
    • 17.3 为 CPython 项目做贡献
    • 17.4 继续学习
  • 十八、附录
    • 18.1 C 预处理器
    • 18.2 基础 C 语法
    • 18.3 总结
  • 致谢
Powered by GitBook
On this page
Edit on GitHub
  1. 五、Python 语言和语法

5.4 重新生成语法

Previous5.3 分析器生成器Next5.5 总结

Last updated 2 years ago

要查看 CPython 3.9 中引入的新 PEG 生成器:pegen,实际上,你可以更改部分 Python 语法。在 Grammar/python.gram 中搜索 small_stmt,查看小语句的定义:

图片不翻译

需要关注的是行 'pass' { _Py_Pass(EXTRA) } 用于 pass 语句:

通过添加一个|以及 proceed 字面量来更改此行以接受终结符号(关键字)'pass' 或者 'proceed' 作为关键字。

| ('pass'|'proceed') { _Py_Pass(EXTRA) }

接下来,重建语法文件。CPython 附带了脚本可以自动实现语法重新生成。

在 macOS 和 Linux 上,可以运行 make regen-pegen 命令:

$ make regen-pegen

在 Windows 上,可以使用 --regen 标志来运行 PCBuild 目录中的 build.bat:

> build.bat --regen

你应该能在输出上看到新的 Parser/pegen/parse.c 文件已重新生成。

当你重新编译 CPython 时使用重新生成的解析器表,它就将使用新的语法。使用上一章中用于操作系统的相同编译步骤。

如果你的代码编译成功,那么你就可以使用新的 CPython 二进制文件并启动一个交互式解释器。

在交互式解释器中,你可以尝试定义一个函数。用你编译进 Python 语法中的 proceed 关键字来替代 pass 语句。

$ ./python
Python 3.9 (tags/v3.9:9cf67522, Oct 5 2020, 10:00:00)
[Clang 10.0.1 (clang-1001.0.46.4)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> def example():
... proceed
...
>>> example()

恭喜你,你已经修改了 CPython 语法并且编译出属于你自己的 CPython 版本。

接下来,你会继续探索单词符号以及其与语法的关系。

单词符号(Token)

注

译者注:“Token” 一词有多种翻译名称,大多数被翻译成 “记号”,但译者还是更认同《现代编译原理(赵克佳等人译)》中的翻译,将其翻译为 “单词符号” 更为贴切,简称 “单词”。

在 Grammar 目录中,除了语法文件之外,还有一个 Grammar/Tokens 文件,其包含了分析树的叶子节点上能找到的所有类型。每个单词都有一个名字和一个生成的唯一 ID。这些名字使引用分词器(tokenizer)中的单词符号变得更简单。

注

Grammar/Tokens 文件是 Python 3.8 的新特性。

比如,左括号被称为 LPAR ,而顿号被称为 SEMI 。你会在本书后半部分看到这些单词符号。

与 Grammar 文件一样,如果你修改了 Grammar/Token 文件,你就需要重新运行 pegen。

你可以使用 CPython 的 tokenize 模块查看单词符号的运行情况。

注

用 Python 编写的分词器是一个实用程序模块。实际的 Python 解析器使用一个不同的过程来识别单词符号。

创建一个 test_tokens.py 的简单 Python 脚本:

将 test_tokens.py 文件输入到 Python 的 tokenize 标准库中,你会看到一系列按行展开的单词和符号。

使用 -e 标志来输出准确的单词符号名称:

在输出中,第一列是行和列的坐标范围,第二列是单词符号名称,而最后一列则是单词符号的值。

在输出中,tokenize 模块已经暗示了几个单词符号:

  • ENCODING 单词符号用于 utf-8 ;

  • DEDENT 用于结束函数申明;

  • ENDMARKER 用于结束文件;

  • 结尾处有一个空行。

一个最佳实践是在 Python 源文件末尾中保留一个空行。如果你忘记这样做,那么 CPython 会为你自动补上空行。

tokeinze 模块是用纯 Python 语言写的,相关代码位于 Lib/tokenize.py 中。

要查看 C 解析器的详细读数,你可以使用 -d 标志来运行 Python 的调试构建。使用之前创建的 test_tokens.py 脚本,用如下命令执行:

代码不翻译

在输出中,你可以非常明显的看到 procceed 是一个关键词。在下一章节中,你将会看到执行 Python 二进制文件如何进入到分词器以及从那里执行代码会发生什么。

如要你要清理代码,请回退对 Grammar/python.gram 的修改,重新生成语法文件以及清理构建和重新编译:

对于 macOS 或者 Linux 使用以下选项:

$ git checkout -- Grammar/Grammar

$ make regen-grammar

$ make clobber

$ make -j2 -s

或者对于 Windows 使用以下选项:

> git checkout -- Grammar/Grammar

> build.bat --regen

> build.bat -t CleanAll

> build.bat -t Build