CPython 实现原理
  • README
  • 一、简介
    • 1.1 如何使用此书
    • 1.2 额外材料和学习资料
  • 二、获取 CPython 源码
    • 2.1 源代码里有什么?
  • 三、准备你的开发环境
    • 3.1 选IDE还是编辑器?
    • 3.2 安装Visual Studio
    • 3.3 安装Visual Studio Code
    • 3.4 安装JetBrains Clion
    • 3.5 安装Vim
    • 3.6 总结
  • 四、编译 CPython
    • 4.1 在 macOS 上编译 CPython
    • 4.2 在 Linux 上编译 CPython
    • 4.3 安装自定义版本
    • 4.4 make 快速入门
    • 4.5 CPython 的 make 目标
    • 4.6 在 Windows 上编译 CPython
    • 4.7 PGO 优化
    • 4.8 总结
  • 五、Python 语言和语法
    • 5.1 为什么 CPython 是用 C 语言而不是用 Python 语言来实现
    • 5.2 Python 语言规范
    • 5.3 分析器生成器
    • 5.4 重新生成语法
    • 5.5 总结
  • 六、配置和输入
    • 6.1 配置状态
    • 6.2 构建配置
    • 6.3 从输入构建模块
    • 6.4 总结
  • 七、基于语法树的词法分析和解析
    • 7.1 具象语法树生成器
    • 7.2 CPython 解析器-分词器
    • 7.3 抽象语法树
    • 7.4 要记住的术语
    • 7.5 一个示例:添加一个约等于比较运算法
    • 7.6 总结
  • 八、编译器
    • 8.1 相关源文件
    • 8.2 重要的专业术语
    • 8.3 实例化一个编译器
    • 8.4 未来标志和编译器标志
    • 8.5 符号表
    • 8.6 核心编译过程
    • 8.7 汇编
    • 8.8 创建一个 Code Object
    • 8.9 使用 Instaviz 展示 Code Object
    • 8.10 一个示例:实现约等于操作符
    • 8.11 总结
  • 九、求值循环
    • 9.1 构建线程状态
    • 9.2 构建帧对象
    • 9.3 帧的执行
    • 9.4 值栈
    • 9.5 例子:在列表中添加元素
    • 9.6 总结
  • 十、内存管理
    • 10.1 C 中的内存分配
    • 10.2 Python 内存管理系统设计
    • 10.3 CPython 内存分配器
  • 十一、并行和并发
    • 11.1 并行和并发模型
    • 11.2 进程的结构
    • 11.3 多进程并行
    • 11.4 多线程
    • 11.5 异步编程
    • 11.6 生成器
    • 11.7 协程
    • 11.8 异步生成器
    • 11.9 子解释器
    • 11.10 总结
  • 十二、对象和类型
    • 12.1 本章的例子
    • 12.2 内置类型
    • 12.3 对象和可变长度对象类型
    • 12.4 类型类
    • 12.5 布尔和整数类型
    • 12.6 Unicode 字符串类型
    • 12.7 字典类型
    • 12.8 总结
  • 十三、标准库
    • 13.1 Python 模块
    • 13.2 Python 和 C 模块
  • 十四、测试套件
    • 14.1 在 Windows 上运行测试套件
    • 14.2 在 Linux 或 MacOS 上运行测试套件
    • 14.3 测试标志
    • 14.4 运行特定测试
    • 14.5 测试模块
    • 14.6 测试工具
    • 14.7 总结
  • 十五、调试
  • 十六、基准测试、性能分析和追踪
  • 十七、下一步计划
    • 17.1 为 CPython 编写 C 扩展
    • 17.2 改进你的 Python 应用程序
    • 17.3 为 CPython 项目做贡献
    • 17.4 继续学习
  • 十八、附录
    • 18.1 C 预处理器
    • 18.2 基础 C 语法
    • 18.3 总结
  • 致谢
Powered by GitBook
On this page
  • 相关源文件
  • 例子
Edit on GitHub
  1. 十一、并行和并发

11.9 子解释器

到目前为止,你已经了解了:

  • 多进程并行执行;

  • 线程和异步并发执行。

多进程的缺点是使用管道和队列的进程间通信比共享内存慢,而且启动新进程的开销很大。

线程和异步的开销很小,但由于 GIL 中的线程安全保证而不能提供真正的并行执行。

第四个选项是 subinterpreters,它的开销比 multiprocessing 小,并且允许每个子解释器有一个 GIL。毕竟它是全局 解释器 锁。

在 CPython 运行时中,总是有一个解释器。解释器保存解释器状态,在一个解释器中你可以有一个或多个 Python 线程。解释器是求值循环的容器。它还管理自己的内存、引用计数器和垃圾收集。

CPython 具有用于创建解释器的低层次 C API,例如 Py_NewInterpreter():

图片内容: Runtime State:运行时状态, Runtime:运行时, Interpreter 0: primary:主的, Interpreter State:解释器状态, GIL:不译, Thread 0:线程 0, Heap:堆, Core Instructions:核心指令, Modules:模块, Files:文件, Locks:锁, Sockets:套接字

注

subinterpreters 模块在 3.9 中仍处于实验阶段,因此 API 可能会发生变化并且实现仍然存在问题。

因为解释器状态包含内存分配区域——所有指向 Python 对象(本地和全局)的指针的集合——子解释器无法访问其他解释器的全局变量。

与多进程类似,要在解释器之间共享对象,你必须将它们序列化或使用 ctypes 并使用一种 IPC(网络、磁盘或共享内存)。

相关源文件

以下是与子解释器相关的源文件:

文件
用途

Lib/_xxsubinterpreters.c

子解释器模块的 C 实现

Python/pylifecycle.c

解释器管理 API 的 C 实现

例子

在最后的示例应用程序中,必须在字符串中捕获实际的连接代码。在 3.9 中,子解释器只能用一串字符串代码来执行。

为了启动每个子解释器,线程列表以回调函数 run() 开始。

此函数将:

  • 创建一个通信通道;

  • 启动一个新的子解释器;

  • 向子解释器发送要执行的代码;

  • 通过通信通道接收数据;

  • 如果端口连接成功,将其加入线程安全的队列。

cpython-book-samples/33/portscanner_subinterpreters.py

import time
import _xxsubinterpreters as subinterpreters
from threading import Thread
import textwrap as tw
from queue import Queue

timeout = 1 # In seconds

def run(host: str, port: int, results: Queue):
    # Create a communication channel
    channel_id = subinterpreters.channel_create()
    interpid = subinterpreters.create()
    subinterpreters.run_string(
        interpid,
        tw.dedent(
    """
    import socket; import _xxsubinterpreters as subinterpreters
    sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    sock.settimeout(timeout)
    result = sock.connect_ex((host, port))
    subinterpreters.channel_send(channel_id, result)
    sock.close()
    """),
        shared=dict(
        channel_id=channel_id,
        host=host,
        port=port,
        timeout=timeout
        ))
    output = subinterpreters.channel_recv(channel_id)
    subinterpreters.channel_release(channel_id)
    if output == 0:
        results.put(port)

if __name__ == '__main__':
    start = time.time()
    host = "127.0.0.1" # Pick a host you own
    threads = []
    results = Queue()
    for port in range(80, 100):
        t = Thread(target=run, args=(host, port, results))
        t.start()
        threads.append(t)
    for t in threads:
        t.join()
    while not results.empty():
        print("Port {0} is open".format(results.get()))
    print("Completed scan in {0} seconds".format(time.time() - start))

由于与多进程相比开销减少,此示例的执行速度应该加快 30% 到 40%,并且占用更少的内存资源:

$ python portscanner_subinterpreters.py
Port 80 is open
Completed scan in 1.3474230766296387 seconds
Previous11.8 异步生成器Next11.10 总结

Last updated 2 years ago