​tarfile --- 读写tar归档文件​

源代码: Lib/tarfile.py


tarfile 模块可以用来读写 tar 归档,包括使用 gzip, bz2 和 lzma 压缩的归档。 请使用 zipfile 模块来读写 .zip 文件,或者使用 shutil 的高层级函数。

一些事实和数字:

  • 读写 gzip, bz2 和 lzma 解压的归档要求相应的模块可用。

  • 支持读取 / 写入 POSIX.1-1988 (ustar) 格式。

  • 对 GNU tar 格式的读/写支持,包括 longname 和 longlink 扩展,对所有种类 sparse 扩展的只读支持,包括 sparse 文件的恢复。

  • 对 POSIX.1-2001 (pax) 格式的读/写支持。

  • 处理目录、正常文件、硬链接、符号链接、fifo 管道、字符设备和块设备,并且能够获取和恢复文件信息例如时间戳、访问权限和所有者等。

在 3.3 版更改: 添加了对 lzma 压缩的支持。

在 3.12 版更改: 归档文件使用 过滤器 来提取,这将可以限制令人惊讶/危险的特性,或确认它们符合预期并且归档文档受到完全信任。 在默认情况下,归档文档将受到完全信任,但此默认选项已被弃用并计划在 Python 3.14 中改变。

tarfile.open(name=Nonemode='r'fileobj=Nonebufsize=10240**kwargs)

针对路径名 name 返回 TarFile 对象。 有关 TarFile 对象以及所允许的关键字参数的详细信息请参阅 TarFile 对象。

mode 必须是 'filemode[:compression]' 形式的字符串,其默认值为 'r'。 以下是模式组合的完整列表:

模式

action

'r' or 'r:*'

打开和读取使用透明压缩(推荐)。

'r:'

打开和读取不使用压缩。

'r:gz'

打开和读取使用gzip 压缩。

'r:bz2'

打开和读取使用bzip2 压缩。

'r:xz'

打开和读取使用lzma 压缩。

'x' 或 'x:'

单独创建一个 tarfile 而不带压缩。 如果它已经存在则会引发 FileExistsError 异常。

'x:gz'

使用 gzip 压缩创建一个 tarfile。 如果它已经存在则会引发 FileExistsError 异常。

'x:bz2'

使用 bzip2 压缩创建一个 tarfile。 如果它已经存在则会引发 FileExistsError 异常。

'x:xz'

使用 lzma 压缩创建一个 tarfile。 如果它已经存在则会引发 FileExistsError 异常。

'a' or 'a:'

打开以便在没有压缩的情况下追加。如果文件不存在,则创建该文件。

'w' or 'w:'

打开用于未压缩的写入。

'w:gz'

打开用于 gzip 压缩的写入。

'w:bz2'

打开用于 bzip2 压缩的写入。

'w:xz'

打开用于 lzma 压缩的写入。

请注意 'a:gz''a:bz2' 或 'a:xz' 是不可能的组合。 如果 mode 不适用于打开特定(压缩的)文件用于读取,则会引发 ReadError。 请使用 mode 'r' 来避免这种情况。 如果某种压缩方法不受支持,则会引发 CompressionError。

如果指定了 fileobj,它会被用作对应于 name 的以二进制模式打开的 file object 的替代。 它会被设定为处在位置 0。

对于 'w:gz''x:gz''w|gz''w:bz2''x:bz2''w|bz2' 等模式,tarfile.open() 接受关键字参数 compresslevel (默认值为 9) 用于指定文件的压缩等级。

对于 'w:xz' 和 'x:xz' 模式,tarfile.open() 接受关键字参数 preset 来指定文件的压缩等级。

针对特殊的目的,还存在第二种 mode 格式: 'filemode|[compression]'。 tarfile.open() 将返回一个将其数据作为数据块流来处理的 TarFile 对象。 对此文件将不能执行随机查找。 如果给定了 fileobj,它可以是任何具有 read() 或 write() 方法 (由 mode 确定) 的对象。 bufsize 指定块大小,默认值为 20 * 512 字节。 可与此格式组合使用的有 sys.stdin, 套接字 file object 或磁带设备等。 但是,对于这样的 TarFile 对象存在不允许随机访问的限制,参见 例子。 目前可用的模式如下:

模式

动作

'r|*'

打开 tar 块的  以进行透明压缩读取。

'r|'

打开一个未压缩的 tar 块的 stream 用于读取。

'r|gz'

打开一个 gzip 压缩的 stream 用于读取。

'r|bz2'

打开一个 bzip2 压缩的 stream 用于读取。

'r|xz'

打开一个 lzma 压缩 stream 用于读取。

'w|'

打开一个未压缩的 stream 用于写入。

'w|gz'

打开一个 gzip 压缩的 stream 用于写入。

'w|bz2'

打开一个 bzip2 压缩的 stream 用于写入。

'w|xz'

打开一个 lzma 压缩的 stream 用于写入。

在 3.5 版更改: 添加了 'x' (单独创建) 模式。

在 3.6 版更改: name 形参接受一个 path-like object。

在 3.12 版更改: compresslevel 关键字参数也适用于流式数据。

class tarfile.TarFile

用于读取和写入 tar 归档的类。 请不要直接使用这个类:而要使用 tarfile.open()。 参见 TarFile 对象。

tarfile.is_tarfile(name)

如果 name 是一个 tarfile 能读取的 tar 归档文件则返回 True。 name 可以为 str,文件或文件类对象。

在 3.9 版更改: 支持文件或类文件对象。

tarfile 模块定义了以下异常:

exception tarfile.TarError

所有 tarfile 异常的基类。

exception tarfile.ReadError

当一个不能被 tarfile 模块处理或者因某种原因而无效的 tar 归档被打开时将被引发。

exception tarfile.CompressionError

当一个压缩方法不受支持或者当数据无法被正确解码时将被引发。

exception tarfile.StreamError

当达到流式 TarFile 对象的典型限制时将被引发。

exception tarfile.ExtractError

当使用 TarFile.extract() 时针对 non-fatal 所引发的异常,但是仅限 TarFile.errorlevel== 2

exception tarfile.HeaderError

如果获取的缓冲区无效则会由 TarInfo.frombuf() 引发的异常。

exception tarfile.FilterError

被过滤器 拒绝 的成员的基类。

tarinfo

关于过滤器拒绝提取的成员的信息,为 TarInfo 类型。

exception tarfile.AbsolutePathError

在拒绝提取具有绝对路径的成员时引发。

exception tarfile.OutsideDestinationError

在拒绝提取目标目录以外的成员时引发。

exception tarfile.SpecialFileError

在拒绝提取特殊文件(例如设备或管道)时引发。

exception tarfile.AbsoluteLinkError

在拒绝提取具有绝对路径的符号链接时引发。

exception tarfile.LinkOutsideDestinationError

在拒绝提取指向目标目录以外的符号链接时引发。

以下常量在模块层级上可用:

tarfile.ENCODING

默认的字符编码格式:在 Windows 上为 'utf-8',其他系统上则为 sys.getfilesystemencoding() 所返回的值。

以下常量各自定义了一个 tarfile 模块能够创建的 tar 归档格式。 相关细节请参阅 受支持的 tar 格式 小节。

tarfile.USTAR_FORMAT

POSIX.1-1988 (ustar) 格式。

tarfile.GNU_FORMAT

GNU tar 格式。

tarfile.PAX_FORMAT

POSIX.1-2001 (pax) 格式。

tarfile.DEFAULT_FORMAT

用于创建归档的默认格式。 目前为 PAX_FORMAT。

在 3.8 版更改: 新归档的默认格式已更改为 PAX_FORMAT 而不再是 GNU_FORMAT。

参见

模块 zipfile

zipfile 标准模块的文档。

归档操作

标准 shutil 模块所提供的高层级归档工具的文档。

GNU tar manual, Basic Tar Format

针对 tar 归档文件的文档,包含 GNU tar 扩展。

TarFile 对象

TarFile 对象提供了一个 tar 归档的接口。 一个 tar 归档就是数据块的序列。 一个归档成员(被保存文件)是由一个标头块加多个数据块组成的。 一个文件可以在一个 tar 归档中多次被保存。 每个归档成员都由一个 TarInfo 对象来代表,详情参见 TarInfo 对象。

TarFile 对象可在 with 语句中作为上下文管理器使用。 当语句块结束时它将自动被关闭。 请注意在发生异常事件时被打开用于写入的归档将不会被终结;只有内部使用的文件对象将被关闭。 相关用例请参见 例子。

3.2 新版功能: 添加了对上下文管理器协议的支持。

class tarfile.TarFile(name=Nonemode='r'fileobj=Noneformat=DEFAULT_FORMATtarinfo=TarInfodereference=Falseignore_zeros=Falseencoding=ENCODINGerrors='surrogateescape'pax_headers=Nonedebug=0errorlevel=1)

下列所有参数都是可选项并且也可作为实例属性来访问。

name 是归档的路径名称。 name 可以是一个 path-like object。 如果给定了 fileobj 则它可以被省略。 在此情况下,如果对象的 name 属性存在则它会被使用。

mode 可以为 'r' 表示从现有归档读取,'a' 表示将数据追加到现有文件,'w' 表示创建新文件覆盖现有文件,或者 'x' 表示仅在文件不存在时创建新文件。

如果给定了 fileobj,它会被用于读取或写入数据。 如果可以被确定,则 mode 会被 fileobj 的模式所覆盖。 fileobj 的使用将从位置 0 开始。

备注

当 TarFile 被关闭时,fileobj 不会被关闭。

format 控制用于写入的归档格式。 它必须为在模块层级定义的常量 USTAR_FORMAT, GNU_FORMAT 或 PAX_FORMAT 中的一个。 当读取时,格式将被自动检测,即使单个归档中存在不同的格式。

tarinfo 参数可以被用来将默认的 TarInfo 类替换为另一个。

如果 dereference 为 False,则会将符号链接和硬链接添加到归档中。 如果为 True,则会将目标文件的内容添加到归档中。 在不支持符号链接的系统上参数将不起作用。

如果 ignore_zeros 为 False,则会将空的数据块当作归档的末尾来处理。 如果为 True,则会跳过空的(和无效的)数据块并尝试获取尽可能多的成员。 此参数仅适用于读取拼接的或损坏的归档。

debug 可设为从 0 (无调试消息) 到 3 (全部调试消息)。 消息会被写入到 sys.stderr

errorlevel 控制如何处理提取错误,参见 相应的属性

encoding 和 errors 参数定义了读取或写入归档所使用的字符编码格式以及要如何处理转换错误。 默认设置将适用于大多数用户。 要深入了解详情可参阅 Unicode 问题 小节。

可选的 pax_headers 参数是字符串的字典,如果 format 为 PAX_FORMAT 它将被作为 pax 全局标头被添加。

在 3.2 版更改: 使用 'surrogateescape' 作为 errors 参数的默认值。

在 3.5 版更改: 添加了 'x' (单独创建) 模式。

在 3.6 版更改: name 形参接受一个 path-like object。

classmethod TarFile.open(...)

作为替代的构造器。 tarfile.open() 函数实际上是这个类方法的快捷方式。

TarFile.getmember(name)

返回成员 name 的 TarInfo 对象。 如果 name 在归档中找不到,则会引发 KeyError。

备注

如果一个成员在归档中出现超过一次,它的最后一次出现会被视为是最新的版本。

TarFile.getmembers()

以 TarInfo 对象列表的形式返回归档的成员。 列表的顺序与归档中成员的顺序一致。

TarFile.getnames()

以名称列表的形式返回成员。 它的顺序与 getmembers() 所返回列表的顺序一致。

TarFile.list(verbose=True*members=None)

将内容清单打印到 sys.stdout。 如果 verbose 为 False,则将只打印成员名称。 如果为 True,则输出将类似于 ls -l 的输出效果。 如果给定了可选的 members,它必须为 getmembers() 所返回的列表的一个子集。

在 3.5 版更改: 添加了 members 形参。

TarFile.next()

当 TarFile 被打开用于读取时,以 TarInfo 对象的形式返回归档的下一个成员。 如果不再有可用对象则返回 None。

TarFile.extractall(path='.'members=None*numeric_owner=Falsefilter=None)

将归档中的所有成员提取到当前工作目录或 path 目录。 如果给定了可选的 members,则它必须为 getmembers() 所返回的列表的一个子集。 字典信息例如所有者、修改时间和权限会在所有成员提取完毕后被设置。 这样做是为了避免两个问题:目录的修改时间会在每当在其中创建文件时被重置。 并且如果目录的权限不允许写入,提取文件到目录的操作将失败。

如果 numeric_owner 为 True,则将使用来自 tarfile 的 uid 和 gid 数值来设置被提取文件的所有者/用户组。 在其他情况下,则会使用来自 tarfile 的名称值。

filter 参数指明在提取之前要如何修改或拒绝 members。 请参阅 解压缩过滤器 了解详情。 建议应根据你需要支持的 tar 特征显式地设置该参数。

警告

绝不要未经预先检验就从不可靠的源中提取归档文件。 这样有可能在 path 之外创建文件,例如某些成员具有以 "/" 开始的绝对路径文件名或带有两个点号 ".." 的文件名。

设置 filter='data' 来防止最危险的安全问题,并请参阅 解压缩过滤器 一节了解详情。section for details.

在 3.5 版更改: 添加了 numeric_owner 形参。

在 3.6 版更改: path 形参接受一个 path-like object。

在 3.12 版更改: 添加了 filter 形参。

TarFile.extract(memberpath=''set_attrs=True*numeric_owner=Falsefilter=None)

从归档中提取出一个成员放入当前工作目录,将使用其完整名称。 成员的文件信息会尽可能精确地被提取。 member 可以是一个文件名或 TarInfo 对象。 你可以使用 path 指定一个不同的目录。 path 可以是一个 path-like object。 将会设置文件属性 (owner, mtime, mode) 除非 set_attrs 为假值。

numeric_owner 和 filter 参数与 extractall() 中的相同。

备注

extract() 方法不会处理某些提取问题。 在大多数情况下你应当考虑使用 extractall() 方法。

警告

查看 extractall() 的警告信息。

设置 filter='data' 来防止最危险的安全问题,并请参阅 解压缩过滤器 一节了解详情。section for details.

在 3.2 版更改: 添加了 set_attrs 形参。

在 3.5 版更改: 添加了 numeric_owner 形参。

在 3.6 版更改: path 形参接受一个 path-like object。

在 3.12 版更改: 添加了 filter 形参。

TarFile.extractfile(member)

将归档中的一个成员提取为文件对象。 member 可以是一个文件名或 TarInfo 对象。 如果 member 是一个常规文件或链接,则会返回一个 io.BufferedReader 对象。 对于所有其他现有成员,则都将返回 None。 如果 member 未在归档中出现,则会引发 KeyError。

在 3.3 版更改: 返回一个 io.BufferedReader 对象。

TarFile.errorlevel: int

如果 errorlevel 为 0,则在使用 TarFile.extract() 和 TarFile.extractall() 时错误会被忽略。 不过,当 debug 大于 0 时它们将会作为错误消息在调试输出中出现。 如果 errorlevel*为 ``1`` (默认值),则所有 *fatal 错误都会作为 OSError 或 FilterError 异常被引发。 如果为 2,则所有 non-fatal 错误也会作为 TarError 异常被引发。

某些异常,如参数类型错误或数据损坏导致的异常,总是会被触发。

自定义 提取过滤器 应针对 fatal 错误引发 FilterError,针对 non-fatal 错误引发 ExtractError。

请注意,当出现异常时,存档可能会被部分提取。用需要户负责进行清理。

TarFile.extraction_filter

3.12 新版功能.

被用作 extract() 和 extractall() 的 filter 参数的默认值的 提取过滤器。

该属性可以为 None 或是一个可调用对象。 与 extract() 的 filter 参数不同,该属性不允许使用字符串名称。

如果 extraction_filter 为 None (默认值),则不带 filter 参数调用提取方法将引发 DeprecationWarning,并回退至 fully_trusted 过滤器,其危险行为与之前版本的 Python 一致。

在 Python 3.14+ 中,保持 extraction_filter=None 将导致提取方法默认使用 data 过滤器。

该属性可在实例上设置或在子类中重载。 也可以在 TarFile 类本身上设置它以设置一个全局默认值,不过,由于它会影响 tarfile 的所有使用,因此最好只在最高层级应用程序或 站点配置 中这样做。 要以这种方式设置全局默认值,需要用 staticmethod() 包装过滤器函数以防止 self 参数的注入。

TarFile.add(namearcname=Nonerecursive=True*filter=None)

将文件 name 添加到归档。 name 可以为任意类型的文件(目录、fifo、符号链接等等)。 如果给出 arcname 则它将为归档中的文件指定一个替代名称。 默认情况下会递归地添加目录。 这可以通过将 recursive 设为 False 来避免。 递归操作会按排序顺序添加条目。 如果给定了 filter,它应当为一个接受 TarInfo 对象并返回已修改 TarInfo 对象的函数。 如果它返回 None 则 TarInfo 对象将从归档中被排除。 具体示例参见 例子。

在 3.2 版更改: 添加了 filter 形参。

在 3.7 版更改: 递归操作按排序顺序添加条目。

TarFile.addfile(tarinfofileobj=None)

将 TarInfo 对象 tarinfo 添加到归档。 如果给定了 fileobj,它应当是一个 binary file,并会从中读取 tarinfo.size 个字节添加到归档。 你可以直接创建 TarInfo 对象,或是使用 gettarinfo() 来创建。

TarFile.gettarinfo(name=Nonearcname=Nonefileobj=None)

基于 os.stat() 的结果或者现有文件的相同数据创建一个 TarInfo。 文件或者是命名为 name,或者是使用文件描述符指定为一个 file object fileobj。 name 可以是一个 path-like object。 如果给定了 arcname,则它将为归档中的文件指定一个替代名称,在其他情况下,名称将从 fileobj 的 name 属性或 name 参数获取。 名称应当是一个文本字符串。

你可以在使用 addfile() 添加 TarInfo 的某些属性之前修改它们。 如果文件对象不是从文件开头进行定位的普通文件对象,size 之类的属性就可能需要修改。 例如 GzipFile 之类的文件就属于这种情况。 name 也可以被修改,在这种情况下 arcname 可以是一个占位字符串。

在 3.6 版更改: name 形参接受一个 path-like object。

TarFile.close()

关闭 TarFile。 在写入模式下,会向归档添加两个表示结束的零数据块。

TarFile.pax_headers

一个包含 pax 全局标头的键值对的字典。

TarInfo 对象

TarInfo 对象代表 TarFile 中的一个文件。 除了会存储所有必要的文件属性(例如文件类型、大小、时间、权限、所有者等),它还提供了一些确定文件类型的有用方法。 此对象 并不 包含文件数据本身。

TarInfo 对象可通过 TarFile 的方法 getmember(), getmembers() 和 gettarinfo() 返回。

修改 getmember() 或 getmembers() 返回的对象将会影响在归档上的所有后续操作。 对于不希望如此的情况,你可以使用 copy.copy() 或调用 replace() 方法通过一个步骤创建经修改的副本。

部分属性可以设为 None 以表示一些元数据未被使用或未知。 不同的 TarInfo 方法会以不同的方式处理 None:

  • extract() 或 extractall() 方法会忽略相应的元数据,让其保持默认设置。

  • addfile() 将会失败。

  • list() 将打印一个占位字符串。

class tarfile.TarInfo(name='')

创建一个 TarInfo 对象。

classmethod TarInfo.frombuf(bufencodingerrors)

基于字符串缓冲区 buf 创建并返回一个 TarInfo 对象。

如果缓冲区无效则会引发 HeaderError。

classmethod TarInfo.fromtarfile(tarfile)

从 TarFile 对象 tarfile 读取下一个成员并将其作为 TarInfo 对象返回。

TarInfo.tobuf(format=DEFAULT_FORMATencoding=ENCODINGerrors='surrogateescape')

基于 TarInfo 对象创建一个字符串缓冲区。 有关参数的信息请参见 TarFile 类的构造器。

在 3.2 版更改: 使用 'surrogateescape' 作为 errors 参数的默认值。

TarInfo 对象具有以下公有数据属性:

TarInfo.name: str

归档成员的名称。

TarInfo.size: int

以字节表示的大小。

TarInfo.mtime: int | float

以 Unix 纪元 秒数表示的最近修改时间,与 os.stat_result.st_mtime 相同。

在 3.12 版更改: 对于 extract() 和 extractall() 可设为 None,以使解压缩操作跳过应用此属性。

TarInfo.mode: int

权限比特位,与 os.chmod() 相同。

在 3.12 版更改: 对于 extract() 和 extractall() 可设为 None,以使解压缩操作跳过应用此属性。

TarInfo.type

文件类型。 type 通常为以下常量之一: REGTYPEAREGTYPELNKTYPESYMTYPEDIRTYPEFIFOTYPECONTTYPECHRTYPEBLKTYPEGNUTYPE_SPARSE。 要更方便地确定一个 TarInfo 对象的类型,请使用下述的 is*() 方法。

TarInfo.linkname: str

目标文件名的名称,该属性仅在类型为 LNKTYPE 和 SYMTYPE 的 TarInfo 对象中存在。

对于符号链接 (SYMTYPE),linkname 是相对于包含链接的目录的。 对于硬链接 (LNKTYPE),linkname 则是相对于存档根目录的。

TarInfo.uid: int

最初保存该成员的用户的用户 ID。

在 3.12 版更改: 对于 extract() 和 extractall() 可设为 None,以使解压缩操作跳过应用此属性。

TarInfo.gid: int

最初保存该成员的用户的分组 ID。

在 3.12 版更改: 对于 extract() 和 extractall() 可设为 None,以使解压缩操作跳过应用此属性。

TarInfo.uname: str

用户名。

在 3.12 版更改: 对于 extract() 和 extractall() 可设为 None,以使解压缩操作跳过应用此属性。

TarInfo.gname: str

分组名。

在 3.12 版更改: 对于 extract() 和 extractall() 可设为 None,以使解压缩操作跳过应用此属性。

TarInfo.pax_headers: dict

一个包含所关联的 pax 扩展标头的键值对的字典。

TarInfo.replace(name=..., mtime=..., mode=..., linkname=...,

uid=..., gid=..., uname=..., gname=...,

deep=True)

3.12 新版功能.

返回修改了给定属性的 TarInfo 对象的  副本。 例如,要返回组名设为 'staff' 的 TarInfo,请使用:

new_tarinfo = old_tarinfo.replace(gname='staff')

在默认情况下,将执行深拷贝。 如果 deep 为假值,则执行浅拷贝,即 pax_headers 及任何自定义属性都与原始 TarInfo 对象共享。

TarInfo 对象还提供了一些便捷查询方法:

TarInfo.isfile()

如果 Tarinfo 对象为普通文件则返回 True。

TarInfo.isreg()

与 isfile() 相同。

TarInfo.isdir()

如果为目录则返回 True。

TarInfo.issym()

如果为符号链接则返回 True。

TarInfo.islnk()

如果为硬链接则返回 True。

TarInfo.ischr()

如果为字符设备则返回 True。

TarInfo.isblk()

如果为块设备则返回 True。

TarInfo.isfifo()

如果为 FIFO 则返回 True。.

TarInfo.isdev()

如果为字符设备、块设备或 FIFO 之一则返回 True。

解压缩过滤器

3.12 新版功能.

tar 格式的设计旨在捕捉类 UNIX 文件系统的所有细节,这使其功能非常强大。 不幸的是,这些特性也使得很容易创建在解压缩时产生意想不到的 -- 甚至可能是恶意的 -- 影响的 tar 文件。 举例来说,解压缩 tar 文件时可以通过各种方式覆盖任意文件(例如通过使用绝对路径、.. 路径组件或影响后续成员的符号链接等)。

在大多数情况下,并不需要全部的功能。 因此,tarfile 支持提取过滤器:一种限制功能的机制,从而避免一些安全问题。

参见

PEP 706

包含设计背后进一步的动机和理由。

TarFile.extract() 或 extractall() 的 filter 参数可以是:

  • 字符串 'fully_trusted':尊重归档文件中指定的所有元数据。 如果用户完全信任该归档,或实现了自己的复杂验证则应使用此过滤器。

  • 字符串 'tar': 尊重大多数 tar 专属的特性(即类 UNIX 文件系统的功能),但阻止极有可能令人惊讶的或恶意的功能。 详情参见 tar_filter()。

  • 字符串 'data':忽略或阻止大多数类 UNIX 文件系统专属的特性。 用于提取跨平台数据归档文件。 详情参见 data_filter()。

  • None (默认): 使用 TarFile.extraction_filter。

    如果这也为 None (默认值),则引发 DeprecationWarning,并回退为 'fully_trusted' 过滤器,其危险行为与之前版本的 Python 一致。

    在 Python 3.14 中,'data' 过滤器将变成默认选项。 也可以提前切换,参见 TarFile.extraction_filter。

  • 该可调用对象将针每个被提取的成员执行调用并附带一个 TarInfo 来描述该成员以及被提取归档文件的目标路径(即供所有成员使用的相同路径):

    filter(member: TarInfo, path: str, /) -> TarInfo | None
    

    该可调用对象会在提取每个成员之前被调用,因此它能够将磁盘的当前状态考虑在内。 它可以:

    • 返回一个 TarInfo 对象,该对象将被用来代替归档文件中的元数据,或者

    • 返回 None,在这种情况下该成员将被跳过,或者

    • 根据 errorlevel 的值引发一个异常以中止操作或跳过成员。 请注意当提取操作中止时,extractall() 可能会保留部分已提取的归档文件。 它不会尝试执行清理。

默认的命名过滤器

预定义的命名过滤器可作为函数使用,因此它们可在自定义过滤器中被重用:

tarfile.fully_trusted_filter(memberpath)

不加修改地返回 member

实现 'fully_trusted' 过滤器。

tarfile.tar_filter(memberpath)

实现 'tar' 过滤器。

  • 从文件名中去除开头的斜杠 (/ 和 os.sep)。

  • 拒绝 提取具有绝对路径的文件(针对名称在去除斜杠后仍为绝对路径的情况,例如 Windows 上 C:/foo 这样的路径)。 这会引发 AbsolutePathError。

  • 拒绝 提取具有位于目标以外的绝对路径(跟随符号链接之后)的文件。这会引发 OutsideDestinationError。

  • 清空高模式位 (setuid, setgid, sticky) 和 group/other 写入位 (S_IWOTH)。

返回修改后的 TarInfo 成员。

tarfile.data_filter(memberpath)

实现 'data' 过滤器。 在 tar_filter 的所具有的功能之外:

  • 拒绝 提取链接到绝对路径的链接(不论是硬链接还是软链接),或链接到目标之外的链接。

    这会引发 AbsoluteLinkError 或 LinkOutsideDestinationError。

    请注意即使在不支持符号链接的平台上此类文件也会被拒绝。

  • 拒绝 提取设备文件(包括管道)。 这会引发 SpecialFileError。

  • 用于常规文件,包括硬链接:

    • 设置所有者的读写权限 (S_IWUSR)。

    • 如果所有者没有 group 和 other 可执行权限 (S_IXOTH),则移除它 (S_IXUSR)。

  • 对于其他文件(目录),将 mode 设为 None,以便提取方法跳过应用权限位。

  • 将用户和组信息 (uidgidunamegname) 设为 None,以使得提取方法跳过对它的设置。

返回修改后的 TarInfo 成员。

过滤器错误

当过滤器拒绝提取文件时,它将引发一个适当的异常,即 FilterError 的子类。 如果 TarFile.errorlevel 为 1 或更大的值则提取将中止。 如果 errorlevel=0 则会记录错误并跳过该成员,但提取仍会继续。

进一步核验的提示

即使 filter='data'tarfile 也不适合在没有事先检查的情况下提取不受信任的文件。 除其他问题外,预定义的过滤器不能防止拒绝服务攻击。 用户应当进行额外的检查。

以下是一份不完整的考虑事项列表:

  • 提取到 新的临时目录 以避免滥用已存在的链接等问题,并使得提取失败后更容易清理。

  • 在处理不受信任的数据时,使用外部(例如操作系统层级)的磁盘、内存和 CPU 使用限制。

  • 根据允许字符列表检查文件名(来过滤控制字符、易混淆字符、外来路径分隔符等)。

  • 检查文件名是否有预期的扩展名(不鼓励使用在“点击”时会被执行的文件,或像 Windows 特殊设备名称这样没有扩展名的文件)。

  • 限制提取文件的数量、提取数据的总大小、文件名长度(包括符号链接长度)以及单个文件的大小。

  • 检查在不区分大小写的文件系统上会被屏蔽的文件。

还需要注意:

  • Tar 文件可能包含同一文件的多个版本。 较晚的版本会覆盖任何较早的版本。 这一功能对于更新磁带归档来说至关重要,但也可能被恶意滥用。

  • tarfile 无法为“实时”数据的问题提供保护,例如在提取(或归档)过程中攻击者对目标(或源)目录进行了改动。

支持较早的 Python 版本

提取过滤器是在 Python 3.12 中增加的,但可能会作为安全更新向下移植到较老的版本。 要检查该特性是否可用,请使用 hasattr(tarfile, 'data_filter') 而不是检查 Python 版本。

下面的例子演示了如何支持带有和没有有该功能的 Python 版本。 请注意设置 extraction_filter 会影响任何后续的操作。

  • 完全受信任的归档:

    my_tarfile.extraction_filter = (lambda member, path: member)
    my_tarfile.extractall()
    
  • 如果可用则使用 'data' 过滤器;如果此特性不可用,则恢复为 Python 3.11 的行为 ('fully_trusted'):

    my_tarfile.extraction_filter = getattr(tarfile, 'data_filter',
                                           (lambda member, path: member))
    my_tarfile.extractall()
    
  • 使用 'data' 过滤器;如果不可用则 fail:

    my_tarfile.extractall(filter=tarfile.data_filter)
    

    或者:

    my_tarfile.extraction_filter = tarfile.data_filter
    my_tarfile.extractall()
    
  • 使用 'data' 过滤器;如果不可用则 warn:

    if hasattr(tarfile, 'data_filter'):
        my_tarfile.extractall(filter='data')
    else:
        # remove this when no longer needed
        warn_the_user('Extracting may be unsafe; consider updating Python')
        my_tarfile.extractall()
    

有状态的提取过滤器示例

tarfile 的提取方法接受一个简单的 filter 可调用对象,而自定义过滤器则可以是具有内部状态的更复杂对象。 将其写成为下文管理器可能会很有用处,即以这样的方式使用:

with StatefulFilter() as filter_func:
    tar.extractall(path, filter=filter_func)

例如,这种过滤器可以写成:

class StatefulFilter:
    def __init__(self):
        self.file_count = 0

    def __enter__(self):
        return self

    def __call__(self, member, path):
        self.file_count += 1
        return member

    def __exit__(self, *exc_info):
        print(f'{self.file_count} files extracted')

命令行接口

3.4 新版功能.

tarfile 模块提供了简单的命令行接口以便与 tar 归档进行交互。

如果你想要创建一个新的 tar 归档,请在 -c 选项后指定其名称然后列出应当被包含的文件名:

$ python -m tarfile -c monty.tar  spam.txt eggs.txt

传入一个字典也是可接受的:

$ python -m tarfile -c monty.tar life-of-brian_1979/

如果你想要将一个 tar 归档提取到指定的目录,请使用 -e 选项:

$ python -m tarfile -e monty.tar

你也可以通过传入目录名称将一个 tar 归档提取到不同的目录:

$ python -m tarfile -e monty.tar  other-dir/

要获取一个 tar 归档中文件的列表,请使用 -l 选项:

$ python -m tarfile -l monty.tar

命令行选项

-l <tarfile>

--list <tarfile>

列出一个 tarfile 中的文件名。

-c <tarfile> <source1> ... <sourceN>

--create <tarfile> <source1> ... <sourceN>

基于源文件创建 tarfile。

-e <tarfile> [<output_dir>]

--extract <tarfile> [<output_dir>]

如果未指定 output_dir 则会将 tarfile 提取到当前目录。

-t <tarfile>

--test <tarfile>

检测 tarfile 是否有效。

-v, --verbose

更详细地输出结果。

--filter <filtername>

为 --extract 指定 filter。 详情参见 解压缩过滤器。 只接受字符串名称 (包括 fully_trustedtar 和 data)。

例子

如何将整个 tar 归档提取到当前工作目录:

import tarfile
tar = tarfile.open("sample.tar.gz")
tar.extractall(filter='data')
tar.close()

如何通过 TarFile.extractall() 使用生成器函数而非列表来提取一个 tar 归档的子集:

import os
import tarfile

def py_files(members):
    for tarinfo in members:
        if os.path.splitext(tarinfo.name)[1] == ".py":
            yield tarinfo

tar = tarfile.open("sample.tar.gz")
tar.extractall(members=py_files(tar))
tar.close()

如何基于一个文件名列表创建未压缩的 tar 归档:

import tarfile
tar = tarfile.open("sample.tar", "w")
for name in ["foo", "bar", "quux"]:
    tar.add(name)
tar.close()

使用 with 语句的同一个示例:

import tarfile
with tarfile.open("sample.tar", "w") as tar:
    for name in ["foo", "bar", "quux"]:
        tar.add(name)

如何读取一个 gzip 压缩的 tar 归档并显示一些成员信息:

import tarfile
tar = tarfile.open("sample.tar.gz", "r:gz")
for tarinfo in tar:
    print(tarinfo.name, "is", tarinfo.size, "bytes in size and is ", end="")
    if tarinfo.isreg():
        print("a regular file.")
    elif tarinfo.isdir():
        print("a directory.")
    else:
        print("something else.")
tar.close()

如何创建一个归档并使用 TarFile.add() 中的 filter 形参来重置用户信息:

import tarfile
def reset(tarinfo):
    tarinfo.uid = tarinfo.gid = 0
    tarinfo.uname = tarinfo.gname = "root"
    return tarinfo
tar = tarfile.open("sample.tar.gz", "w:gz")
tar.add("foo", filter=reset)
tar.close()

受支持的 tar 格式

通过 tarfile 模块可以创建三种 tar 格式:

  • The POSIX.1-1988 ustar 格式 (USTAR_FORMAT)。 它支持最多 256 个字符的文件名长度和最多 100 个字符的链接名长度。 文件大小上限为 8 GiB。 这是一种老旧但广受支持的格式。

  • GNU tar 格式 (GNU_FORMAT)。 它支持长文件名和链接名、大于 8 GiB 的文件以及稀疏文件。 它是 GNU/Linux 系统上的事实标准。 tarfile 完全支持针对长名称的 GNU tar 扩展,稀疏文件支持则限制为只读。

  • POSIX.1-2001 pax 格式 (PAX_FORMAT)。 它是几乎无限制的最灵活格式。 它支持长文件名和链接名,大文件以及使用可移植方式存储路径名。 现代的 tar 实现,包括 GNU tar, bsdtar/libarchive 和 star,都完全支持扩展的 pax 特性;某些老旧或不再维护的库可能不支持,但应当会将 pax 归档视为广受支持的 ustar 格式。 它是当前新建归档的默认格式。

    它扩展了现有的 ustar 格式,包括用于无法以其他方式存储的附加标头。 存在两种形式的 pax 标头:扩展标头只影响后续的文件标头,全局标头则适用于完整归档并会影响所有后续的文件。 为了便于移植,在 pax 标头中的所有数据均以 UTF-8 编码。

还有一些 tar 格式的其他变种,它们可以被读取但不能被创建:

  • 古老的 V7 格式。 这是来自 Unix 第七版的第一个 tar 格式,它只存储常规文件和目录。 名称长度不能超过 100 个字符,并且没有用户/分组名信息。 某些归档在带有非 ASCII 字符字段的情况下会产生计算错误的标头校验和。

  • SunOS tar 扩展格式。 此格式是 POSIX.1-2001 pax 格式的一个变种,但并不保持兼容。

Unicode 问题

最初 tar 格式被设计用来在磁带机上生成备份,主要关注于保存文件系统信息。 现在 tar 归档通常用于文件分发和在网络上交换归档。 最初格式(它是所有其他格式的基础)的一个问题是它没有支持不同字符编码格式的概念。 例如,一个在 UTF-8 系统上创建的普通 tar 归档如果包含非 ASCII 字符则将无法在 Latin-1 系统上被正确读取。 文本元数据(例如文件名,链接名,用户/分组名)将变为损坏状态。 不幸的是,没有什么办法能够自动检测一个归档的编码格式。 pax 格式被设计用来解决这个问题。 它使用通用字符编码格式 UTF-8 来存储非 ASCII 元数据。

在 tarfile 中字符转换的细节由 TarFile 类的 encoding 和 errors 关键字参数控制。

encoding 定义了用于归档中元数据的字符编码格式。 默认值为 sys.getfilesystemencoding() 或是回退选项 'ascii'。 根据归档是被读取还是被写入,元数据必须被解码或编码。 如果没有正确设置 encoding,转换可能会失败。

errors 参数定义了不能被转换的字符将如何处理。 可能的取值在 错误处理方案 小节列出。 默认方案为 'surrogateescape',它也被 Python 用于文件系统调用,参见 文件名,命令行参数,以及环境变量。。

对于 PAX_FORMAT 归档(默认格式),encoding 通常是不必要的,因为所有元数据都使用 UTF-8 来存储。 encoding 仅在解码二进制 pax 标头或存储带有替代字符的字符串等少数场景下会被使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/240163.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

skynet 中 mongo 模块运作的底层原理解析

文章目录 前言总览全流程图涉及模块关系连接数据库函数调用流程图数据库操作函数调用流程图涉及到的代码文件 建立连接SCRAMSASL 操作数据库结语参考链接 前言 这篇文章总结 skynet 中 mongo 的接入流程&#xff0c;代码解析&#xff0c;读完它相信你对 skynet 中的 mongo 调用…

Python:核心知识点整理大全16-笔记

目录 8.2.3 默认值 8.2.4 等效的函数调用 8.2.5 避免实参错误 8.3 返回值 8.3.1 返回简单值 formatted_name.py 8.3.2 让实参变成可选的 8.3.3 返回字典 往期快速传送门&#x1f446;&#xff08;在文章最后&#xff09;&#xff1a; 8.2.3 默认值 编写函数时&#xff…

Docker镜像构建:深入Dockerfile创建自定义镜像

Docker的强大之处在于其能够通过Dockerfile定义和构建自定义镜像&#xff0c;为应用提供独立、可移植的运行环境。在这篇博客文章中&#xff0c;将深入探讨Docker镜像构建的核心概念&#xff0c;通过更加丰富的示例代码&#xff0c;帮助大家全面理解和掌握构建自定义镜像的技术…

机器学习笔记 - 基于C# + .net framework 4.8的ONNX Runtime进行分类推理

该示例是从官方抄的,演示了如何使用 Onnx Runtime C# API 运行预训练的 ResNet50 v2 ONNX 模型。 我这里的环境基于.net framework 4.8的一个winform项目,主要依赖下面版本的相关库。 Microsoft.Bcl.Numerics.8.0.0 Microsoft.ML.OnnxRuntime.Gpu.1.16.3 SixLabors.ImageShar…

掌握iText:轻松处理PDF文档-高级篇-添加水印

前言 iText作为一个功能强大、灵活且广泛应用的PDF处理工具&#xff0c;在实际项目中发挥着重要作用。通过这些文章&#xff0c;读者可以深入了解如何利用iText进行PDF的创建、编辑、加密和提取文本等操作&#xff0c;为日常开发工作提供了宝贵的参考和指导。 掌握iText&…

并发编程-线程等待唤醒机制

目录 前言 ​编辑 线程等待和唤醒的方法 wait() 方法&#xff1a; notify() 方法&#xff1a; 注意事项和建议&#xff1a; 我的其他博客 前言 程等待唤醒机制是多线程编程中用于线程之间协调和通信的一种机制。在多线程环境中&#xff0c;有时候一个线程需要等待某个条件…

【大数据】Doris 架构

Doris 架构 Doris 的架构很简洁&#xff0c;只设 FE&#xff08;Frontend&#xff09;、BE&#xff08;Backend&#xff09;两种角色、两个进程&#xff0c;不依赖于外部组件&#xff0c;方便部署和运维&#xff0c;FE、BE 都可线性扩展。 ✅ Frontend&#xff08;FE&#xff0…

C++_类的定义和使用

目录 1、类的引用 1.1 类的成员函数 1.2 类成员函数的声明和定义 2、类的定义 2.1 类的访问限定&#xff08;封装&#xff09; 3、类重名问题 4、类的实例化 4.1 类的大小 5、隐含的this指针 5.1 空指针问题 结语&#xff1a; 前言&#xff1a; C的类跟c语言中的结…

Standoff 12 网络演习

在 11 月 21 日至 24 日于莫斯科举行的 "Standoff 12 "网络演习中&#xff0c;Positive Technologies 公司再现了其真实基础设施的一部分&#xff0c;包括软件开发、组装和交付的所有流程。安全研究人员能够在安全的环境中测试系统的安全性&#xff0c;并尝试将第三方…

GO闭包实现原理(汇编级讲解)

go语言闭包实现原理(汇编层解析) 1.起因 今天开始学习go语言,在学到go闭包时候,原本以为go闭包的实现方式就是类似于如下cpp lambda value通过值传递,mutable修饰可以让value可以修改,但是地址不可能一样value通过引用传递,但是在其他地方调用时,这个value局部变量早就释放,…

低多边形植物模型法线贴图

在线工具推荐&#xff1a; 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎 当谈到游戏角色的3D模型风格时&#xff0c;有几种不同的风格&#xf…

深度学习在人体动作识别领域的应用:开源工具、数据集资源及趋动云GPU算力不可或缺

人体动作识别检测是一种通过使用计算机视觉和深度学习技术&#xff0c;对人体姿态和动作进行实时监测和分析的技术。该技术旨在从图像或视频中提取有关人体姿态、动作和行为的信息&#xff0c;以便更深入地识别和理解人的活动。 人体动作识别检测的基本步骤包括&#xff1a; 数…

web279(s2-001)

目前java小白一个&#xff0c;主要是学学别人的思路 进入题目&#xff0c;登录框一个 抓包也没发现什么东西 网上说是struts2框架 Struts2是用Java语言编写的一个基于MVC设计模式的Web应用框架 判断是不是基于struts2的一些方法&#xff1a; 1.通过页面回显的错误消息来判断…

MySQL一行记录是怎么存储的?

文章目录 MySQL 一行记录是怎么存储的&#xff1f;MySQL 的数据存放在哪个文件&#xff1f;表空间文件结构 InnoDB行格式有哪些Compact行格式varchar(n) 中 n 最大取值为多少&#xff1f;行溢出后&#xff0c;MySQL是怎么处理的&#xff1f; MySQL 一行记录是怎么存储的&#x…

IDEA 出现问题:git提交commit时Perform code analysis卡住解决方案

问题 git提交commit时Perform code analysis卡住很久 解决方案一 1、打开 IntelliJ IDEA&#xff0c;进入 File -> Settings&#xff08;或者使用快捷键 CtrlAltS&#xff09;。 2、在弹出的 Settings 窗口中&#xff0c;找到 Version Control -> Commit Dialog 选项…

Flink 有状态流式处理

传统批次处理方法 【1】持续收取数据&#xff08;kafka等&#xff09;&#xff0c;以window时间作为划分&#xff0c;划分一个一个的批次档案&#xff08;按照时间或者大小等&#xff09;&#xff1b; 【2】周期性执行批次运算&#xff08;Spark/Stom等&#xff09;&#xff1b…

机器学习---Adaboost算法

1. Adaboost算法介绍 Adaboost是一种迭代算法&#xff0c;其核心思想是针对同一个训练集训练不同的分类器&#xff08;弱分类器&#xff09;&#xff0c;然 后把这些弱分类器集合起来&#xff0c;构成一个更强的最终分类器&#xff08;强分类器&#xff09;。Adaboost算法本身…

CSS学习

CSS学习 1. 什么是css?2.css引入方式2.1 内嵌式2.2 外联式2.3 行内式2.4 引入方式特点 3. 基础选择器3.1 标签选择器3.2 类选择器3.3 id选择器3.4 通配符选择器 1. 什么是css? 2.css引入方式 2.1 内嵌式 2.2 外联式 提示: 需要在html文件中link目标样式表; 2.3 行内式 注意:…

【EventBus】EventBus源码浅析

二、EventBus源码解析 目录 1、EventBus的构造方法2、订阅者注册 2.1 订阅者方法的查找过程2.2 订阅者的注册过程1. subscriptionsByEventType 映射&#xff1a;2. typesBySubscriber 映射&#xff1a;2.3 总结订阅者的注册过程 3、事件的发送 3.1 使用Post提交事件3.2 使用p…

【STM32】DMA直接存储器存取

1 DMA简介 DMA&#xff08;Direct Memory Access&#xff09;直接存储器存取 可以直接访问STM32的存储器的&#xff0c;包括运行SRAM、程序存储器Flash和寄存器等等 DMA可以提供外设寄存器和存储器或者存储器和存储器之间的高速数据传输&#xff0c;无须CPU干预&#xff0c;节…
最新文章