CPython 实现原理
  • README
  • 一、简介
    • 1.1 如何使用此书
    • 1.2 额外材料和学习资料
  • 二、获取 CPython 源码
    • 2.1 源代码里有什么?
  • 三、准备你的开发环境
    • 3.1 选IDE还是编辑器?
    • 3.2 安装Visual Studio
    • 3.3 安装Visual Studio Code
    • 3.4 安装JetBrains Clion
    • 3.5 安装Vim
    • 3.6 总结
  • 四、编译 CPython
    • 4.1 在 macOS 上编译 CPython
    • 4.2 在 Linux 上编译 CPython
    • 4.3 安装自定义版本
    • 4.4 make 快速入门
    • 4.5 CPython 的 make 目标
    • 4.6 在 Windows 上编译 CPython
    • 4.7 PGO 优化
    • 4.8 总结
  • 五、Python 语言和语法
    • 5.1 为什么 CPython 是用 C 语言而不是用 Python 语言来实现
    • 5.2 Python 语言规范
    • 5.3 分析器生成器
    • 5.4 重新生成语法
    • 5.5 总结
  • 六、配置和输入
    • 6.1 配置状态
    • 6.2 构建配置
    • 6.3 从输入构建模块
    • 6.4 总结
  • 七、基于语法树的词法分析和解析
    • 7.1 具象语法树生成器
    • 7.2 CPython 解析器-分词器
    • 7.3 抽象语法树
    • 7.4 要记住的术语
    • 7.5 一个示例:添加一个约等于比较运算法
    • 7.6 总结
  • 八、编译器
    • 8.1 相关源文件
    • 8.2 重要的专业术语
    • 8.3 实例化一个编译器
    • 8.4 未来标志和编译器标志
    • 8.5 符号表
    • 8.6 核心编译过程
    • 8.7 汇编
    • 8.8 创建一个 Code Object
    • 8.9 使用 Instaviz 展示 Code Object
    • 8.10 一个示例:实现约等于操作符
    • 8.11 总结
  • 九、求值循环
    • 9.1 构建线程状态
    • 9.2 构建帧对象
    • 9.3 帧的执行
    • 9.4 值栈
    • 9.5 例子:在列表中添加元素
    • 9.6 总结
  • 十、内存管理
    • 10.1 C 中的内存分配
    • 10.2 Python 内存管理系统设计
    • 10.3 CPython 内存分配器
  • 十一、并行和并发
    • 11.1 并行和并发模型
    • 11.2 进程的结构
    • 11.3 多进程并行
    • 11.4 多线程
    • 11.5 异步编程
    • 11.6 生成器
    • 11.7 协程
    • 11.8 异步生成器
    • 11.9 子解释器
    • 11.10 总结
  • 十二、对象和类型
    • 12.1 本章的例子
    • 12.2 内置类型
    • 12.3 对象和可变长度对象类型
    • 12.4 类型类
    • 12.5 布尔和整数类型
    • 12.6 Unicode 字符串类型
    • 12.7 字典类型
    • 12.8 总结
  • 十三、标准库
    • 13.1 Python 模块
    • 13.2 Python 和 C 模块
  • 十四、测试套件
    • 14.1 在 Windows 上运行测试套件
    • 14.2 在 Linux 或 MacOS 上运行测试套件
    • 14.3 测试标志
    • 14.4 运行特定测试
    • 14.5 测试模块
    • 14.6 测试工具
    • 14.7 总结
  • 十五、调试
  • 十六、基准测试、性能分析和追踪
  • 十七、下一步计划
    • 17.1 为 CPython 编写 C 扩展
    • 17.2 改进你的 Python 应用程序
    • 17.3 为 CPython 项目做贡献
    • 17.4 继续学习
  • 十八、附录
    • 18.1 C 预处理器
    • 18.2 基础 C 语法
    • 18.3 总结
  • 致谢
Powered by GitBook
On this page
  • 相关源文件
  • 符号表数据结构
  • 使用 symtable 标准库模块
  • 符号表实现
Edit on GitHub
  1. 八、编译器

8.5 符号表

在编译代码之前,PySymtable_BuildObject() API 会创建出一个符号表(symbol table)。

符号表的目的是提供命名空间、全局和局部的列表,供编译器用于引用和解析作用域。

相关源文件

下面是与符号表相关的源文件:

文件
用途

Python/symtable.c

符号表实现

Include/symtable.h

符号表 API 定义和类型定义

Lib/symtable.py

symtable 标准库模块

符号表数据结构

symtable 结构应该是编译器的一个 symtable 实例,因此命名空间变得至关重要。

例如,如果你在一个类中创建了一个叫做 resolve_names() 的方法,并在另一个类中也声明了一个同名的方法,那么你需要确定哪个方法要在模块内被调用。

symtable 服务于此目的,同时确保在狭窄范围内声明的变量不会自动成为全局变量。

符号表结构(symtable)具有以下字段:

字段
类型
用途

recursion_depth

int

当前递归深度

recursion_limit

int

引发 RecursionError 错误前的递归限制

st_blocks

PyObject * (dict)

AST 节点地址到符号表项的映射

st_cur

_symtable_entry

当前符号表项

st_filename

PyObject * (str)

正在编译的文件名

st_future

PyFutureFeatures

影响符号表的模块未来特性

st_global

PyObject * (dict)

对 st_top 中的符号引用

st_nblocks

int

使用的块数

st_private

PyObject * (str)

当前类的名字(可选)

st_stack

PyObject * (list)

命名空间信息栈

st_top

_symtable_entry

模块的符号表项

使用 symtable 标准库模块

有些符号表 C API 通过标准库中的 symtable 模块在 Python 中公开出来。

使用另一个称为 tabulate(可在 PyPI 上获取)的模块,你可以创建一个脚本来打印符号表。

符号表可以嵌套,因此如果模块包含函数或类,则该模块将具有符号表。

创建一个名为 symviz.py 的脚本,并有一个递归 show() 函数:

import tabulate
import symtable
code = """
def calc_pow(a, b):
return a ** b
a = 1
b = 2
c = calc_pow(a,b)
"""
_st = symtable.symtable(code, "example.py", "exec")
def show(table):
print("Symtable {0} ({1})".format(table.get_name(),
table.get_type()))
print(
    tabulate.tabulate(
        [
            (
                 symbol.get_name(),
                 symbol.is_global(),
                 symbol.is_local(),
                 symbol.get_namespaces(),
            )
            for symbol in table.get_symbols()
        ],
        headers=["name", "global", "local", "namespaces"],
        tablefmt="grid",
    )
)
if table.has_children():
    [show(child) for child in table.get_children()]


show(_st)

在命令行运行 symviz.py 以查看示例代码的符号表:

图片不翻译

符号表实现

符号表的实现在 Python/symtable.c 中,并且主接口是 PySymtable_BuildObject()。

与上一章所讲到的 AST 编译类似,PySymtable_BuildObject() 在 mod_ty 的可能类型(Module、Interactive、Expression 和 FunctionType)之间切换并访问其中的每个语句。

符号表递归地探索 AST(mod_ty 类型)的节点和分支,并将条目添加到 symtable 中:

struct symtable *
PySymtable_BuildObject(mod_ty mod, PyObject *filename,
                       PyFutureFeatures *future)
{
    struct symtable *st = symtable_new();
    asdl_seq *seq;
    int i;
    PyThreadState *tstate;
    int recursion_limit = Py_GetRecursionLimit();
...
    st->st_top = st->st_cur;
    switch (mod->kind) {
    case Module_kind:
        seq = mod->v.Module.body;
        for (i = 0; i < asdl_seq_LEN(seq); i++)
            if (!symtable_visit_stmt(st,
                        (stmt_ty)asdl_seq_GET(seq, i)))
                goto error;
        break;
    case Expression_kind:
        ...
    case Interactive_kind:
        ...
    case FunctionType_kind:
        ...
    }
    ...
}

对于模块而言,PySymtable_BuildObject() 会循环遍历模块中的每个语句并调用 Symtable_visit_stmt(),这是一个巨大的 switch 语句,并且每个语句类型都有一个与之对应的 case(在 Parser/Python.asdl 中定义)。

每个语句类型都有相应的函数来解析符号。例如,函数定义(FunctionDef_kind)语句类型对以下操作具有特定的逻辑:

  • 根据递归限制检查当前递归深度;

  • 将函数的名称添加到符号表中,以便它可以作为函数对象被调用或传递;

  • 解析符号表中的非字面量默认参数;

  • 解析类型注解;

  • 解析函数装饰器。

最后,symtable_enter_block() 访问带有函数内容的块,然后访问并解析参数和函数体。

重要

如果你曾经想知道为什么 Python 的默认参数是可变的,原因就在 symtable_visit_stmt() 中。参数默认值是对 symtable 中变量的引用。

将任何值复制到不可变类型不需要做额外的工作。

以下是在 symtable_visit_stmt() 中为函数构建 symtable 相关步骤的C代码:

代码不翻译

一旦创建了结果符号表,它就会传递到编译器中。

Previous8.4 未来标志和编译器标志Next8.6 核心编译过程

Last updated 2 years ago