在Python中处理大型文件的最快方法

程序员文章站 2023-01-23 12:09:04

我们需要处理的各种目录中有大约500GB的图像。每个图像的大小约为4MB，我们有一个python脚本，一次处理一个图像（它读取元数据并将其存储在数据库中）。每个目录可能需要1-4小时才能处理，具体取决于大小。我们可以在GNU / Linux操作系统上使用2.2Ghz四核处理器和16GB RAM。当 ......

我们需要处理的各种目录中有大约500gb的图像。每个图像的大小约为4mb，我们有一个python脚本，一次处理一个图像（它读取元数据并将其存储在数据库中）。每个目录可能需要1-4小时才能处理，具体取决于大小。

我们可以在gnu / linux操作系统上使用2.2ghz四核处理器和16gb ram。当前脚本仅使用一个处理器。利用其他内核和ram来更快地处理图像的最佳方法是什么？启动多个python进程来运行脚本会利用其他内核吗？

另一个选择是使用gearman或beanstalk之类的东西将工作分配给其他机器。我已经看了多处理库但不知道如何利用它。

解决方案

启动多个python进程来运行脚本会利用其他内核吗？

是的，如果任务受cpu约束，它将会。这可能是最简单的选择。但是，不要为每个文件或每个目录生成单个进程; 考虑使用像这样的工具，并让它产生每个核心两个进程的东西。

另一个选择是使用gearman或beanstalk之类的东西将工作分配给其他机器。

那可能有用。另外，看看zeromq的python绑定，它使分布式处理变得非常简单。

我已经看了多处理库但不知道如何利用它。

比如定义一个函数，process它读取单个目录中的图像，连接到数据库并存储元数据。让它返回一个表示成功或失败的布尔值。我们directories是目录处理的列表。然后

import multiprocessing
pool = multiprocessing.pool(multiprocessing.cpu_count())
success = all(pool.imap_unordered(process, directories))

将并行处理所有目录。如果需要，您还可以在文件级执行并行操作; 这需要更多的修修补补。

请注意，这将在第一次失败时停止; 使其容错需要更多的工作。

本文首发于，博客园同步更新

上一篇：哪买鸡胸肉比较好？线上线下都可

下一篇：发芽的黄豆能吃吗？黄豆有什么营养价值呢？

在Python中处理大型文件的最快方法

解决方案

在Python的Django框架中获取单个对象数据的简单方法

在Python的Django框架中更新数据库数据的方法

在Python中过滤Windows文件名中的非法字符方法

Python 从一个文件中调用另一个文件的类方法

Python实现将目录中TXT合并成一个大TXT文件的方法

在Python的Django框架中调用方法和处理无效变量

在Python的Django框架中为代码添加注释的方法

详解使用Python处理文件目录的相关方法

详解在Python程序中自定义异常的方法

在Python中定义和使用抽象类的方法