CPython 实现原理
  • README
  • 一、简介
    • 1.1 如何使用此书
    • 1.2 额外材料和学习资料
  • 二、获取 CPython 源码
    • 2.1 源代码里有什么?
  • 三、准备你的开发环境
    • 3.1 选IDE还是编辑器?
    • 3.2 安装Visual Studio
    • 3.3 安装Visual Studio Code
    • 3.4 安装JetBrains Clion
    • 3.5 安装Vim
    • 3.6 总结
  • 四、编译 CPython
    • 4.1 在 macOS 上编译 CPython
    • 4.2 在 Linux 上编译 CPython
    • 4.3 安装自定义版本
    • 4.4 make 快速入门
    • 4.5 CPython 的 make 目标
    • 4.6 在 Windows 上编译 CPython
    • 4.7 PGO 优化
    • 4.8 总结
  • 五、Python 语言和语法
    • 5.1 为什么 CPython 是用 C 语言而不是用 Python 语言来实现
    • 5.2 Python 语言规范
    • 5.3 分析器生成器
    • 5.4 重新生成语法
    • 5.5 总结
  • 六、配置和输入
    • 6.1 配置状态
    • 6.2 构建配置
    • 6.3 从输入构建模块
    • 6.4 总结
  • 七、基于语法树的词法分析和解析
    • 7.1 具象语法树生成器
    • 7.2 CPython 解析器-分词器
    • 7.3 抽象语法树
    • 7.4 要记住的术语
    • 7.5 一个示例:添加一个约等于比较运算法
    • 7.6 总结
  • 八、编译器
    • 8.1 相关源文件
    • 8.2 重要的专业术语
    • 8.3 实例化一个编译器
    • 8.4 未来标志和编译器标志
    • 8.5 符号表
    • 8.6 核心编译过程
    • 8.7 汇编
    • 8.8 创建一个 Code Object
    • 8.9 使用 Instaviz 展示 Code Object
    • 8.10 一个示例:实现约等于操作符
    • 8.11 总结
  • 九、求值循环
    • 9.1 构建线程状态
    • 9.2 构建帧对象
    • 9.3 帧的执行
    • 9.4 值栈
    • 9.5 例子:在列表中添加元素
    • 9.6 总结
  • 十、内存管理
    • 10.1 C 中的内存分配
    • 10.2 Python 内存管理系统设计
    • 10.3 CPython 内存分配器
  • 十一、并行和并发
    • 11.1 并行和并发模型
    • 11.2 进程的结构
    • 11.3 多进程并行
    • 11.4 多线程
    • 11.5 异步编程
    • 11.6 生成器
    • 11.7 协程
    • 11.8 异步生成器
    • 11.9 子解释器
    • 11.10 总结
  • 十二、对象和类型
    • 12.1 本章的例子
    • 12.2 内置类型
    • 12.3 对象和可变长度对象类型
    • 12.4 类型类
    • 12.5 布尔和整数类型
    • 12.6 Unicode 字符串类型
    • 12.7 字典类型
    • 12.8 总结
  • 十三、标准库
    • 13.1 Python 模块
    • 13.2 Python 和 C 模块
  • 十四、测试套件
    • 14.1 在 Windows 上运行测试套件
    • 14.2 在 Linux 或 MacOS 上运行测试套件
    • 14.3 测试标志
    • 14.4 运行特定测试
    • 14.5 测试模块
    • 14.6 测试工具
    • 14.7 总结
  • 十五、调试
  • 十六、基准测试、性能分析和追踪
  • 十七、下一步计划
    • 17.1 为 CPython 编写 C 扩展
    • 17.2 改进你的 Python 应用程序
    • 17.3 为 CPython 项目做贡献
    • 17.4 继续学习
  • 十八、附录
    • 18.1 C 预处理器
    • 18.2 基础 C 语法
    • 18.3 总结
  • 致谢
Powered by GitBook
On this page
Edit on GitHub
  1. 十三、标准库

13.2 Python 和 C 模块

Previous13.1 Python 模块Next十四、测试套件

Last updated 2 years ago

其余模块是用 C 或者混合使用 Python 和 C 编写的。这些模块的源代码的 Python 部分在 Lib 文件夹中,C 的部分在 Modules 文件夹中。不过有两个例外:

  1. sys 模块在 Python/sysmodule.c 中

  2. __builtins__ 模块在 Python/bltinmodule.c 中

因为 sys 模块对 CPython 的解释器和内部实现来说非常特殊,所以 sys 模块被放在 Python 目录下。可以认为 sys 模块是 CPython 的实现细节,而这些实现细节在其他的 Python 实现中可能并不存在。

当 Python 解释器实例化时,会执行 import * from __builtins__,因此所有的内置函数,比如 print()、chr()、format() 等,都可以在 Python/bltinmodule.c 中找到。

内置函数 print() 或许是你学会的第一个 Python 功能。那么当你输入 print("hello world") 后,会发生什么?

以下是执行步骤:

  1. 参数 "hello world" 被编译器从一个字符串常量转换成 PyUnicodeObject。

  2. 这个 PyUnicodeObject 作为参数传入 builtin_print(),builtin_print 的 kwnames 为 NULL。

  3. 变量 file 被设置成 PyId_stdout,也即系统的 stdout。

  4. 每个参数都被送往 file。

  5. 将一个换行符('\n')送往 file。

以下是它的工作原理:

:

static PyObject *
builtin_print(PyObject *self, PyObject *const *args,
    Py_ssize_t nargs, PyObject *kwnames)
{
    ...
    if (file == NULL || file == Py_None) {
        file = _PySys_GetObjectId(&PyId_stdout);
        ...
    }
    ...
    for (i = 0; i < nargs; i++) {
        if (i > 0) {
            if (sep == NULL)
                err = PyFile_WriteString(" ", file);
            else
                err = PyFile_WriteObject(sep, file,
                                         Py_PRINT_RAW);
        if (err)
            return NULL;
        }
        err = PyFile_WriteObject(args[i], file, Py_PRINT_RAW); if (err)
        return NULL;
    }
    if (end == NULL)
        err = PyFile_WriteString("\n", file);
    else
        err = PyFile_WriteObject(end, file, Py_PRINT_RAW);
    ...
    Py_RETURN_NONE;
}

一些用 C 语言编写的模块需要依赖操作系统。因为 CPython 源代码需要编译到 macOS、Windows、Linux 和其他 *nix 操作系统,所以不得不考虑各种特殊情况。

在 Modules/timemodule.c 中,基于 Unix 的操作系统的时间函数从 <sys/times.h> 导入:

#ifdef HAVE_SYS_TIMES_H
#include <sys/times.h>
#endif
...
#ifdef MS_WINDOWS
#define WIN32_LEAN_AND_MEAN
#include <windows.h>
#include "pythread.h"
#endif /* MS_WINDOWS */
...

同样在这个文件中,可以看到 time_process_time_ns() 只是对 _PyTime_GetProcessTimeWithInfo() 的包装:

static PyObject *
time_process_time_ns(PyObject *self, PyObject *unused)
{
    _PyTime_t t;
    if (_PyTime_GetProcessTimeWithInfo(&t, NULL) < 0) {
        return NULL;
    }
    return _PyTime_AsNanosecondsObject(t);
}

在 _PyTime_GetProcessTimeWithInfo() 函数中可以看到,不同操作系统上实现该函数的方式不同,这些不同的实现方式使用宏来控制,编译时会根据操作系统编译所需要的代码到模块中。Windows 操作系统将调用 GetProcessTimes(),而 Unix 操作系统将调用 clock_gettime()。

time 模块就是一个很好的例子。Windows 使用和存储时间的方式与 Linux 和 macOS 完全不一样,这也是不同操作系统之间 精度不同的原因之一。

其他对外提供同一个 API 接口但是有多组底层实现的模块还包括、文件系统模块和网络模块。由于操作系统的行为不同,CPython 源代码中通过使用一致的、抽象的接口,尽可能地向上层调用者暴露出相同的行为。

Python/bltinmodule.c 第 1828 行
clock() 函数
线程模块