用Python自动化枯燥的工作第5篇：文件操作与数据存储

摘要

本文将带你深入理解Python文件操作和数据持久化的核心技术，帮助你掌握自动化处理文件系统的能力。你将学到文件的读写操作、路径处理与文件管理、目录组织与遍历、数据序列化技术，以及文件自动化处理的实际应用。

学习目标

阅读完本文后，你将能够：

文件读写：熟练使用Python打开、读取、写入各种类型的文件，正确处理编码问题
路径处理：掌握跨平台路径操作，能够正确处理文件和目录路径
目录管理：能够创建、删除、移动、复制文件和目录，遍历复杂的目录结构
数据持久化：理解JSON、CSV、Pickle等序列化格式，能够保存和加载数据
自动化实践：能够构建实用的文件处理自动化工具，提高工作效率

一、文件读写基础：与文件系统交互

1.1 打开和关闭文件

Python使用open()函数打开文件，返回文件对象。打开文件后，必须记得关闭文件，以确保资源被正确释放。

# 基本的文件打开方式
file = open('example.txt', 'r', encoding='utf-8')
content = file.read()
print(content)
file.close()

但这种写法有风险：如果在read()和close()之间发生异常，文件可能不会被关闭。更好的做法是使用with语句：

# 使用with语句（推荐）
with open('example.txt', 'r', encoding='utf-8') as file:
    content = file.read()
    print(content)
# 文件会自动关闭，即使发生异常

1.2 文件打开模式

open()函数的第二个参数指定文件打开模式，决定了可以对文件执行什么操作。

# 常用文件模式
'r'  # 只读（默认）
'w'  # 只写（会覆盖已有文件）
'a'  # 追加（在文件末尾写入）
'r+' # 读写
'x'  # 创建新文件（如果文件已存在会失败）
 
# 文本模式（默认）
't'  # 文本模式（默认）
'b'  # 二进制模式（用于图片、音频等）
 
# 组合使用
'rb' # 读取二进制文件
'wb' # 写入二进制文件
'at' # 文本追加模式

# 写入文件
with open('output.txt', 'w', encoding='utf-8') as file:
    file.write("这是第一行\n")
    file.write("这是第二行\n")
 
# 追加内容
with open('output.txt', 'a', encoding='utf-8') as file:
    file.write("这是追加的行\n")
 
# 读取文件
with open('output.txt', 'r', encoding='utf-8') as file:
    content = file.read()
    print(content)

下面的流程图展示了文件操作的完整生命周期：

flowchart TD
    A[开始文件操作] --> B[打开文件<br/>open函数]
    B --> C{打开成功?}

    C -->|否| D[抛出异常<br/>FileNotFoundError等]
    C -->|是| E[获取文件对象]

    E --> F{操作模式}

    F -->|读r| G[读取文件内容]
    F -->|写w| H[写入文件内容<br/>覆盖原有内容]
    F -->|追加a| I[在末尾追加内容]
    F -->|读写r+| J[读取和写入]

    G --> K[使用with语句<br/>自动关闭]
    H --> K
    I --> K
    J --> K

    K --> L{发生异常?}
    L -->|是| M[自动关闭文件]
    L -->|否| N[正常关闭文件]

    M --> O[处理异常]
    N --> P[操作完成]
    O --> P

    D --> Q[操作失败]
    P --> R[结束]
    Q --> R

    style A fill:#e1f5e1
    style R fill:#ffe1e1
    style C fill:#fff5e1
    style L fill:#fff5e1
    style K fill:#e1f5ff

图表讲解：这个流程图展示了文件操作从开始到结束的完整过程，包括正常流程和异常处理。

文件操作从调用open()函数开始（绿色区域）：open()函数尝试打开指定文件，可能的结果有两种——成功或失败。失败的原因可能包括文件不存在（读取模式）、权限不足、路径错误等，这时会抛出相应的异常（黄色决策分支）。

如果打开成功（蓝色区域），获得文件对象，然后根据打开模式执行不同操作：读模式（'r'）从文件读取内容；写模式（'w'）写入内容并覆盖原有文件；追加模式（'a'）在文件末尾添加新内容；读写模式（'r+'）既可以读也可以写。

使用with语句时（绿色区域），无论操作是否成功，文件都会被正确关闭。这是Python处理资源的最佳实践：with语句确保即使在操作过程中发生异常，文件的close()方法也会被调用。

with语句内部有一个异常检查点（黄色决策）：如果发生异常（如磁盘满、权限问题），with语句会先关闭文件（蓝色区域），然后将异常传递给上层处理。如果没有异常，文件正常关闭（蓝色区域）。

最终有两种可能的结果（红色区域）：操作成功完成，或因异常操作失败。理解这个流程有助于编写健壮的文件处理代码，确保资源被正确管理。

1.3 读取文件的不同方法

Python提供了多种读取文件内容的方法，适用于不同场景。

# 假设file.txt内容：
# 第一行
# 第二行
# 第三行
 
# read(): 读取整个文件
with open('file.txt', 'r', encoding='utf-8') as file:
    content = file.read()
    print("read()结果:")
    print(repr(content))  # '第一行\n第二行\n第三行\n'
 
# readline(): 读取一行
with open('file.txt', 'r', encoding='utf-8') as file:
    line = file.readline()
    print("readline()结果:")
    print(repr(line))  # '第一行\n'
 
# readlines(): 读取所有行，返回列表
with open('file.txt', 'r', encoding='utf-8') as file:
    lines = file.readlines()
    print("readlines()结果:")
    print(lines)  # ['第一行\n', '第二行\n', '第三行\n']
 
# 遍历文件对象（推荐用于大文件）
with open('file.txt', 'r', encoding='utf-8') as file:
    print("遍历文件对象:")
    for line in file:
        print(f"行: {repr(line)}")

sequenceDiagram
    participant Pro as 程序
    participant File as 文件对象
    participant Disk as 磁盘文件

    Note over Pro,Disk: 方法1: read()
    Pro->>File: read()
    File->>Disk: 读取全部内容
    Disk-->>File: 返回全部内容
    File-->>Pro: 返回完整字符串

    Note over Pro,Disk: 方法2: readlines()
    Pro->>File: readlines()
    File->>Disk: 读取全部内容
    Disk-->>File: 返回全部内容
    File-->>Pro: 返回字符串列表

    Note over Pro,Disk: 方法3: 逐行遍历
    loop 每次迭代
        Pro->>File: 获取下一行
        File->>Disk: 读取一行
        Disk-->>File: 返回一行
        File-->>Pro: 返回单行字符串
    end

    Note over Pro,Disk: 方法3更节省内存

图表讲解：这个序列图对比了三种读取文件方法的内存使用特点，这对于处理大文件非常重要。

read()方法（第一个示例）：程序调用file.read()，文件对象从磁盘读取整个文件内容，然后将完整的字符串返回给程序。这种方法简单直接，但会一次性将整个文件加载到内存中。对于小文件没问题，但对于大文件（如几GB的日志文件），可能导致内存不足。

readlines()方法（第二个示例）：程序调用file.readlines()，文件对象同样从磁盘读取整个文件，但返回的是一个字符串列表，每个元素是一行。虽然接口不同，但内存消耗与read()类似，也需要一次性加载整个文件。唯一的便利是自动按行分割。

逐行遍历方法（第三个示例）：这是处理大文件的推荐方式。程序使用for line in file语法，每次循环只读取一行内容到内存。处理完这一行后，内存被释放，然后读取下一行。这种方式无论文件多大，内存使用量都保持在一个常量水平（单行的大小），非常适合处理大型日志文件、CSV文件等。

理解这些区别，就能根据实际场景选择合适的方法：小文件用read()简单方便，大文件用逐行遍历节省内存，readlines()适合需要对所有行进行随机访问的情况。

二、路径处理：跨平台的文件定位

2.1 路径的表示

文件路径是指向文件系统中文件或目录的位置字符串。路径分为绝对路径和相对路径。

# Windows路径示例
absolute_path = "C:\\Users\\Username\\Documents\\file.txt"
relative_path = "..\\Documents\\file.txt"
 
# Unix/Linux/Mac路径示例
absolute_path = "/home/username/documents/file.txt"
relative_path = "../documents/file.txt"

直接使用字符串表示路径存在几个问题：

不同操作系统使用不同的路径分隔符（Windows用\，Unix用/）
需要手动处理路径拼接
代码可移植性差

2.2 pathlib：现代的路径处理库

Python 3.4+引入了pathlib模块，提供面向对象的路径处理方式。

from pathlib import Path
 
# 创建路径对象
current_dir = Path.cwd()  # 获取当前工作目录
home_dir = Path.home()    # 获取用户主目录
 
# 构建路径
file_path = Path.home() / "Documents" / "file.txt"
print(file_path)
# Windows: C:\Users\Username\Documents\file.txt
# Linux: /home/username/Documents/file.txt
 
# 路径的各个部分
print(f"父目录: {file_path.parent}")
print(f"文件名: {file_path.name}")
print(f"扩展名: {file_path.suffix}")
print(f"主干: {file_path.stem}")
 
# 检查路径类型
print(f"是否存在: {file_path.exists()}")
print(f"是否为文件: {file_path.is_file()}")
print(f"是否为目录: {file_path.is_dir()}")
 
# 获取绝对路径
print(f"绝对路径: {file_path.absolute()}")
 
# 遍历目录
for item in Path.home().iterdir():
    if item.is_file():
        print(f"文件: {item.name}")
    elif item.is_dir():
        print(f"目录: {item.name}")

2.3 os.path：传统的路径处理

在pathlib出现之前，使用os.path模块处理路径。

import os
 
# 路径拼接
path = os.path.join("home", "user", "documents", "file.txt")
print(path)  # 自动使用正确的分隔符
 
# 路径分析
dirname = os.path.dirname(path)      # 目录名
basename = os.path.basename(path)    # 文件名
abs_path = os.path.abspath(path)     # 绝对路径
 
# 分割路径和扩展名
name, ext = os.path.splitext("file.txt")
print(f"文件名: {name}, 扩展名: {ext}")
 
# 检查路径
print(os.path.exists(path))      # 是否存在
print(os.path.isfile(path))      # 是否为文件
print(os.path.isdir(path))       # 是否为目录
 
# 获取当前工作目录
cwd = os.getcwd()
print(f"当前目录: {cwd}")

2.4 路径处理的最佳实践

from pathlib import Path
 
def process_file_path(file_path_str):
    """安全的文件路径处理"""
    # 转换为Path对象
    file_path = Path(file_path_str)
 
    # 检查路径是否存在
    if not file_path.exists():
        print(f"错误：路径不存在: {file_path}")
        return None
 
    # 检查是否为文件
    if not file_path.is_file():
        print(f"错误：不是文件: {file_path}")
        return None
 
    # 获取文件信息
    file_size = file_path.stat().st_size
    print(f"文件大小: {file_size} 字节")
 
    # 处理文件
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            content = f.read()
        return content
    except Exception as e:
        print(f"读取文件时出错: {e}")
        return None
 
# 使用示例
content = process_file_path("example.txt")

下面的流程图展示了路径处理和文件操作的完整流程：

flowchart TD
    A[接收路径字符串] --> B[转换为Path对象]
    B --> C{路径存在?}

    C -->|否| D[返回错误<br/>路径不存在]
    C -->|是| E{路径类型}

    E -->|文件| F[获取文件信息]
    E -->|目录| G[列出目录内容]

    F --> H[读取文件内容]
    G --> I[遍历子项]

    H --> J[处理内容]
    I --> K{还有子项?}

    K -->|是| L[获取子项路径]
    K -->|否| M[遍历完成]

    L --> N{子项类型}
    N -->|文件| O[处理文件]
    N -->|目录| P[递归处理]

    O --> K
    P --> K

    J --> Q[返回结果]
    M --> Q

    D --> R[结束]
    Q --> R

    style A fill:#e1f5e1
    style R fill:#ffe1e1
    style C fill:#fff5e1
    style E fill:#fff5e1
    style K fill:#fff5e1
    style N fill:#fff5e1

图表讲解：这个流程图展示了路径处理和文件操作的完整流程，包含错误检查和递归处理逻辑。

处理从接收路径字符串开始（绿色区域）：首先将字符串转换为Path对象，这是pathlib的核心，提供了面向对象的路径操作方式。

然后检查路径是否存在（第一个黄色决策）：如果路径不存在，返回错误并结束（红色区域）。这是基本的错误检查，避免对不存在的路径进行操作。

如果路径存在，检查路径类型（第二个黄色决策）：是文件还是目录。这两种类型需要不同的处理方式。

如果是文件（蓝色区域）：获取文件信息（大小、修改时间等），然后读取文件内容。读取成功后处理内容，最后返回结果。

如果是目录（紫色区域）：列出目录内容，然后进入遍历循环（黄色决策）。对于目录中的每个子项，获取其路径，并判断子项类型（黄色决策）。

如果子项是文件，直接处理文件；如果子项是目录，递归处理（即对子目录重复同样的流程）。这种递归处理可以遍历整个目录树。

当所有子项都处理完毕，遍历完成，返回最终结果（红色区域）。

这个流程展示了文件系统操作的基本模式：检查、判断、处理、递归。理解这个模式，就可以处理各种复杂的文件系统任务，如批量重命名、文件搜索、目录同步等。

三、文件和目录管理：组织你的数据

3.1 创建和删除目录

from pathlib import Path
import os
 
# 创建单个目录
dir_path = Path("new_folder")
dir_path.mkdir(exist_ok=True)  # exist_ok=True避免目录已存在时报错
 
# 创建多层目录
nested_path = Path("parent/child/grandchild")
nested_path.mkdir(parents=True, exist_ok=True)  # parents=True创建所有父目录
 
# 删除空目录
dir_path.rmdir()  # 只能删除空目录
# 或
import shutil
shutil.rmtree("parent")  # 删除目录及其内容（危险操作！）
 
# 检查目录是否存在
if Path("new_folder").exists():
    print("目录存在")

3.2 复制和移动文件

from pathlib import Path
import shutil
 
# 复制文件
src = Path("source.txt")
dst = Path("destination.txt")
 
# 方法1: shutil.copy（保留权限）
shutil.copy(src, dst)
 
# 方法2: shutil.copy2（保留元数据）
shutil.copy2(src, dst)
 
# 方法3: pathlib（简单复制）
src.write_text(dst.read_text())
 
# 移动/重命名文件
src.rename(dst)  # 如果dst已存在会被覆盖
# 或
shutil.move(src, dst)
 
# 移动到目录
shutil.move("file.txt", "directory/")

3.3 批量文件操作

from pathlib import Path
import os
 
def batch_rename_files(directory, pattern, replacement):
    """批量重命名文件"""
    dir_path = Path(directory)
 
    for file_path in dir_path.iterdir():
        if file_path.is_file():
            old_name = file_path.name
            new_name = old_name.replace(pattern, replacement)
 
            if new_name != old_name:
                new_path = file_path.parent / new_name
                file_path.rename(new_path)
                print(f"重命名: {old_name} -> {new_name}")
 
# 使用示例
# batch_rename_files(".", "old", "new")
 
def find_files_by_extension(directory, extension):
    """查找指定扩展名的所有文件"""
    dir_path = Path(directory)
    return list(dir_path.glob(f"*.{extension}"))
 
# 查找所有Python文件
python_files = find_files_by_extension(".", "py")
print(f"找到 {len(python_files)} 个Python文件")
 
for file in python_files:
    print(f"  - {file.name}")

3.4 目录遍历

from pathlib import Path
 
def list_directory_tree(directory, prefix="", is_last=True):
    """以树形结构显示目录内容"""
    path = Path(directory)
    connector = "└── " if is_last else "├── "
 
    print(f"{prefix}{connector}{path.name}")
 
    if path.is_dir():
        children = list(path.iterdir())
        for i, child in enumerate(children):
            is_last_child = (i == len(children) - 1)
            new_prefix = prefix + ("    " if is_last else "│   ")
            list_directory_tree(child, new_prefix, is_last_child)
 
# 使用示例
# list_directory_tree(".")
 
# 使用walk遍历（传统方法）
import os
 
for root, dirs, files in os.walk("."):
    level = root.replace(".", "").count(os.sep)
    indent = " " * 2 * level
    print(f"{indent}{os.path.basename(root)}/")
    subindent = " " * 2 * (level + 1)
    for file in files:
        print(f"{subindent}{file}")

下面的序列图展示了批量文件操作的执行流程：

sequenceDiagram
    participant Main as 主程序
    participant Path as Path对象
    participant FS as 文件系统

    Note over Main,FS: 批量重命名操作
    Main->>Path: 创建目录Path对象
    Path->>FS: 列出目录内容
    FS-->>Path: 返回文件/目录列表

    loop 对每个文件
        Path->>Main: 获取下一个文件路径
        Main->>Main: 生成新文件名
        Main->>Main: 验证新文件名有效

        alt 需要重命名
            Main->>FS: 重命名文件
            FS-->>Main: 重命名成功
            Main->>Main: 记录操作结果
        end
    end

    Note over Main,FS: 查找文件操作
    Main->>Path: 创建目录Path对象
    Main->>Path: 使用glob模式匹配
    Path->>FS: 搜索匹配文件
    FS-->>Path: 返回匹配的Path对象列表
    Path-->>Main: 返回文件列表
    Main->>Main: 处理/显示结果

图表讲解：这个序列图展示了两种常见批量文件操作的详细流程，说明了如何与文件系统交互。

批量重命名操作（上半部分）：首先创建目标目录的Path对象，然后请求文件系统列出目录内容。文件系统返回所有文件和子目录的列表。

然后进入循环处理：对于列表中的每个文件，获取其路径。主程序生成新的文件名（通常基于某种模式替换），并验证新文件名有效。如果新旧文件名不同，向文件系统发出重命名请求。文件系统执行重命名操作并返回成功状态。主程序记录操作结果（如打印日志、更新计数器）。这个过程重复直到所有文件都被处理。

查找文件操作（下半部分）：同样从创建Path对象开始，但使用glob模式匹配（如"*.py"查找所有Python文件）。Path对象将模式传递给文件系统，文件系统执行匹配搜索并返回所有匹配文件的Path对象列表。最后将结果返回给主程序，主程序可以进一步处理或显示这些文件。

这两种操作展示了批量文件处理的典型模式：列出目录内容、对每个项目执行操作、记录结果。理解这个模式，可以构建更复杂的文件处理工具，如批量转换、文件分类、自动整理等。

四、数据序列化：保存和加载数据

4.1 JSON格式

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人类阅读和编写，也易于机器解析和生成。

import json
 
# 将数据保存为JSON
data = {
    "name": "张三",
    "age": 25,
    "city": "北京",
    "hobbies": ["阅读", "旅行", "摄影"]
}
 
# 写入JSON文件
with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=2)
 
# 读取JSON文件
with open('data.json', 'r', encoding='utf-8') as f:
    loaded_data = json.load(f)
 
print(loaded_data)
 
# JSON字符串与Python对象转换
json_string = '{"name": "李四", "age": 30}'
python_obj = json.loads(json_string)
print(python_obj)  # {'name': '李四', 'age': 30}
 
python_dict = {"name": "王五", "age": 35}
json_string = json.dumps(python_dict, ensure_ascii=False)
print(json_string)  # {"name": "王五", "age": 35}

4.2 CSV格式

CSV（Comma-Separated Values）是一种简单的表格数据格式，常用于电子表格和数据交换。

import csv
 
# 写入CSV文件
data = [
    ["姓名", "年龄", "城市"],
    ["张三", 25, "北京"],
    ["李四", 30, "上海"],
    ["王五", 35, "广州"]
]
 
with open('people.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.writer(f)
    writer.writerows(data)  # 写入所有行
 
# 读取CSV文件
with open('people.csv', 'r', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)
 
# 使用DictReader和DictWriter
with open('people.csv', 'r', encoding='utf-8') as f:
    reader = csv.DictReader(f)
    for row in reader:
        print(f"{row['姓名']}: {row['年龄']}岁")
 
# 写入带标题的CSV
with open('output.csv', 'w', encoding='utf-8', newline='') as f:
    fieldnames = ['姓名', '年龄', '城市']
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerow({'姓名': '赵六', '年龄': 28, '城市': '深圳'})

4.3 Pickle模块

Pickle是Python特有的序列化格式，可以序列化几乎所有Python对象。

import pickle
 
# 序列化Python对象
data = {
    "numbers": [1, 2, 3, 4, 5],
    "tuple": (10, 20, 30),
    "nested": {"a": 1, "b": 2}
}
 
# 保存到文件
with open('data.pkl', 'wb') as f:
    pickle.dump(data, f)
 
# 从文件加载
with open('data.pkl', 'rb') as f:
    loaded_data = pickle.load(f)
 
print(loaded_data)
 
# 序列化自定义对象
class Person:
    def __init__(self, name, age):
        self.name = name
        self.age = age
 
    def __repr__(self):
        return f"Person(name='{self.name}', age={self.age})"
 
person = Person("张三", 25)
 
with open('person.pkl', 'wb') as f:
    pickle.dump(person, f)
 
with open('person.pkl', 'rb') as f:
    loaded_person = pickle.load(f)
 
print(loaded_person)

注意：Pickle格式不安全，不要反序列化不受信任的数据。

4.4 序列化格式对比

"""
序列化格式对比
 
JSON:
优点: 跨语言、可读、安全、体积小
缺点: 只支持基本数据类型
适用: 数据交换、API、配置文件
 
CSV:
优点: 简单、Excel兼容、可读
缺点: 只支持表格数据、缺乏类型信息
适用: 电子表格、简单数据导入导出
 
Pickle:
优点: 支持几乎所有Python对象
缺点: Python专用、不安全、不可读
适用: 保存Python对象、临时数据缓存
 
建议:
- 数据交换用JSON
- 表格数据用CSV
- Python对象临时存储用Pickle
- 长期存储考虑数据库
"""

下面的类图展示了Python序列化体系结构：

classDiagram
    class Serializable {
        <<interface>>
        +serialize() str
        +deserialize(data) obj
    }

    class JSONHandler {
        +dump(obj, file) void
        +load(file) dict
        +dumps(obj) str
        +loads(str) dict
    }

    class CSVHandler {
        +writer(file) Writer
        +reader(file) Reader
        +DictWriter Writer
        +DictReader Reader
    }

    class PickleHandler {
        +dump(obj, file) void
        +load(file) obj
    }

    class DataObject {
        +to_dict() dict
        +from_dict(data) obj
    }

    Serializable <|-- DataObject
    JSONHandler ..> Serializable : uses
    CSVHandler ..> Serializable : uses
    PickleHandler ..> Serializable : uses

    JSONHandler : 跨语言
    CSVHandler : 表格数据
    PickleHandler : Python专用

图表讲解：这个类图展示了Python序列化系统的设计和各组件的关系。

Serializable接口（绿色区域）：定义了可序列化对象应实现的方法。serialize()将对象转换为可存储格式，deserialize()从存储格式重建对象。这个接口是抽象的，表示数据对象应该具备序列化能力。

DataObject类实现了Serializable接口，提供具体的序列化实现。to_dict()方法将对象转换为字典（便于JSON序列化），from_dict()方法从字典重建对象。这种设计使得自定义对象可以轻松支持JSON等格式。

三个序列化处理器（蓝色、粉色、紫色区域）分别处理不同格式：JSONHandler处理JSON格式，支持跨语言数据交换；CSVHandler处理CSV格式，专门用于表格数据；PickleHandler处理Pickle格式，专门用于Python对象。

处理器与Serializable接口之间的虚线表示使用关系：序列化处理器可以序列化任何实现了Serializable接口的对象。这种设计遵循依赖倒置原则——高层模块（处理器）依赖于抽象（接口），而不是具体实现。

理解这个设计，可以根据实际需求选择合适的序列化格式：需要与其他语言交互时用JSON，处理表格数据时用CSV，保存Python特定对象时用Pickle。

五、实战案例：文件分类整理工具

5.1 需求分析

创建一个自动化工具，能够：

扫描指定目录中的所有文件
根据文件扩展名将文件分类
将文件移动到对应的分类目录
生成整理报告

5.2 完整实现

from pathlib import Path
import shutil
from collections import defaultdict
import json
 
class FileOrganizer:
    """文件分类整理工具"""
 
    # 文件类型分类
    CATEGORIES = {
        'Images': {'.jpg', '.jpeg', '.png', '.gif', '.bmp', '.svg', '.webp'},
        'Documents': {'.pdf', '.doc', '.docx', '.txt', '.xls', '.xlsx', '.ppt', '.pptx'},
        'Videos': {'.mp4', '.avi', '.mkv', '.mov', '.wmv', '.flv'},
        'Music': {'.mp3', '.wav', '.flac', '.aac', '.ogg'},
        'Archives': {'.zip', '.rar', '.7z', '.tar', '.gz'},
        'Code': {'.py', '.js', '.html', '.css', '.java', '.cpp', '.c'},
        'Data': {'.json', '.csv', '.xml', '.sql', '.db'},
    }
 
    def __init__(self, source_dir, dry_run=True):
        """
        初始化整理工具
 
        参数:
            source_dir: 要整理的源目录
            dry_run: 如果为True，只模拟操作不实际移动文件
        """
        self.source_dir = Path(source_dir)
        self.dry_run = dry_run
        self.report = {
            'total_files': 0,
            'categorized': {},
            'uncategorized': [],
            'errors': []
        }
 
    def get_category(self, file_path):
        """根据扩展名确定文件分类"""
        ext = file_path.suffix.lower()
 
        for category, extensions in self.CATEGORIES.items():
            if ext in extensions:
                return category
 
        return 'Other'
 
    def scan_files(self):
        """扫描目录中的所有文件"""
        files = []
 
        for item in self.source_dir.rglob('*'):
            if item.is_file():
                files.append(item)
 
        return files
 
    def organize(self):
        """执行文件整理"""
        print(f"开始整理目录: {self.source_dir}")
        print(f"模式: {'模拟运行（不会实际移动文件）' if self.dry_run else '实际运行'}\n")
 
        files = self.scan_files()
        self.report['total_files'] = len(files)
 
        for file_path in files:
            try:
                category = self.get_category(file_path)
 
                # 更新统计
                if category not in self.report['categorized']:
                    self.report['categorized'][category] = []
                self.report['categorized'][category].append(str(file_path))
 
                # 创建分类目录
                category_dir = self.source_dir / category
 
                if not self.dry_run:
                    category_dir.mkdir(exist_ok=True)
 
                # 移动文件
                destination = category_dir / file_path.name
 
                # 处理同名文件
                if destination.exists():
                    base_name = file_path.stem
                    ext = file_path.suffix
                    counter = 1
                    while destination.exists():
                        new_name = f"{base_name}_{counter}{ext}"
                        destination = category_dir / new_name
                        counter += 1
 
                # 执行移动
                if not self.dry_run:
                    shutil.move(str(file_path), str(destination))
                    print(f"移动: {file_path.name} -> {category}/")
                else:
                    print(f"[模拟] 移动: {file_path.name} -> {category}/")
 
            except Exception as e:
                error_msg = f"{file_path}: {str(e)}"
                self.report['errors'].append(error_msg)
                print(f"错误: {error_msg}")
 
        self.print_summary()
 
    def print_summary(self):
        """打印整理摘要"""
        print("\n" + "=" * 50)
        print("整理摘要")
        print("=" * 50)
        print(f"总文件数: {self.report['total_files']}")
 
        for category, files in sorted(self.report['categorized'].items()):
            print(f"\n{category}: {len(files)} 个文件")
 
        if self.report['errors']:
            print(f"\n错误: {len(self.report['errors'])}")
            for error in self.report['errors']:
                print(f"  - {error}")
 
        print("\n" + "=" * 50)
 
    def save_report(self, report_file):
        """保存整理报告"""
        with open(report_file, 'w', encoding='utf-8') as f:
            json.dump(self.report, f, ensure_ascii=False, indent=2)
        print(f"报告已保存到: {report_file}")
 
 
# 使用示例
if __name__ == "__main__":
    import sys
 
    # 获取命令行参数
    if len(sys.argv) > 1:
        directory = sys.argv[1]
    else:
        directory = "."
 
    # 先模拟运行
    print("=== 模拟运行 ===")
    organizer = FileOrganizer(directory, dry_run=True)
    organizer.organize()
 
    # 询问是否实际执行
    response = input("\n是否执行实际整理? (y/n): ")
    if response.lower() == 'y':
        print("\n=== 实际运行 ===")
        real_organizer = FileOrganizer(directory, dry_run=False)
        real_organizer.organize()
        real_organizer.save_report("organize_report.json")

5.3 扩展功能

class AdvancedFileOrganizer(FileOrganizer):
    """扩展的文件整理工具"""
 
    def __init__(self, source_dir, dry_run=True):
        super().__init__(source_dir, dry_run)
        self.rules = self._load_rules()
 
    def _load_rules(self):
        """加载自定义整理规则"""
        # 可以从配置文件加载
        return {
            'by_date': {
                'pattern': r'(\d{4})-(\d{2})-(\d{2})',
                'format': '{year}/{month}'
            },
            'by_size': {
                'small': 1024 * 1024,  # 1MB
                'medium': 1024 * 1024 * 100,  # 100MB
            }
        }
 
    def organize_by_date(self, file_path):
        """按文件日期整理"""
        import re
 
        # 尝试从文件名提取日期
        match = re.search(self.rules['by_date']['pattern'], file_path.name)
        if match:
            year, month, day = match.groups()
            return f"{year}/{month}"
 
        # 使用文件修改日期
        mtime = file_path.stat().st_mtime
        from datetime import datetime
        dt = datetime.fromtimestamp(mtime)
        return f"{dt.year}/{dt.month:02d}"
 
    def organize_by_size(self, file_path):
        """按文件大小整理"""
        size = file_path.stat().st_size
 
        if size < self.rules['by_size']['small']:
            return 'Small'
        elif size < self.rules['by_size']['medium']:
            return 'Medium'
        else:
            return 'Large'
 
    def find_duplicates(self):
        """查找重复文件（基于大小和名称）"""
        size_groups = defaultdict(list)
 
        for file_path in self.scan_files():
            size = file_path.stat().st_size
            size_groups[size].append(file_path)
 
        # 查找大小相同的文件
        potential_duplicates = {
            size: files for size, files in size_groups.items()
            if len(files) > 1 and size > 0
        }
 
        return potential_duplicates
 
    def empty_directories(self):
        """查找空目录"""
        empty_dirs = []
 
        for item in self.source_dir.rglob('*'):
            if item.is_dir():
                try:
                    # 尝试列出目录内容
                    next(item.iterdir())
                except StopIteration:
                    # 目录为空
                    empty_dirs.append(item)
 
        return empty_dirs
 
    def generate_tree_report(self, output_file):
        """生成目录结构报告"""
        with open(output_file, 'w', encoding='utf-8') as f:
            self._write_tree(self.source_dir, f, is_root=True)
        print(f"目录树已保存到: {output_file}")
 
    def _write_tree(self, directory, file, prefix="", is_last=True, is_root=False):
        """递归写入目录树"""
        if not is_root:
            connector = "└── " if is_last else "├── "
            file.write(f"{prefix}{connector}{directory.name}\n")
        else:
            file.write(f"{directory.name}/\n")
 
        if directory.is_dir():
            try:
                children = sorted(directory.iterdir(), key=lambda x: (not x.is_dir(), x.name))
            except PermissionError:
                return
 
            for i, child in enumerate(children):
                is_last_child = (i == len(children) - 1)
                new_prefix = prefix + ("    " if is_last else "│   ")
                self._write_tree(child, file, new_prefix, is_last_child)

下面的状态图展示了文件分类工具的完整工作流程：

stateDiagram-v2
    [*] --> 初始化
    初始化 --> 扫描文件
    扫描文件 --> 分析文件类型
    分析文件类型 --> 确定分类目录

    确定分类目录 --> 模拟模式?
    模拟模式 --> 是: 记录操作
    模拟模式 --> 否: 执行移动

    记录操作 --> 还有文件?
    执行移动 --> 还有文件?

    还有文件? --> 是: 扫描文件
    还有文件? --> 否: 生成报告

    生成报告 --> 用户确认?
    用户确认 --> 是: 保存报告
    用户确认 --> 否: 丢弃报告

    保存报告 --> [*]
    丢弃报告 --> [*]

    note right of 扫描文件
        递归遍历目录
        收集所有文件
    end note

    note right of 确定分类目录
        基于扩展名
        创建分类目录
        处理重名
    end note

    note right of 记录操作
        不实际移动
        只记录日志
    end note

    note right of 执行移动
        创建目录
        移动文件
        处理错误
    end note

图表讲解：这个状态图展示了文件分类工具从初始化到完成报告的完整工作流程。

工具从初始化状态开始，进入文件扫描阶段。扫描过程递归遍历指定目录，收集所有文件信息。这是工具的输入收集阶段，决定了后续处理的数据量。

扫描完成后，对每个文件分析其类型（基于扩展名）。根据预定义的分类规则（如图片、文档、视频等），确定文件应该归属的分类目录。这时还需要检查目标目录是否存在，如果不存在需要创建。

然后有一个重要的决策点（黄色区域）：判断当前是模拟模式还是实际执行模式。模拟模式用于预览操作结果，不会实际修改文件系统。在模拟模式下，只记录将要执行的操作，生成预览报告。

在实际执行模式下，真正执行文件移动操作。这包括创建必要的目录、处理可能的文件名冲突（通过添加后缀）、执行移动操作，以及处理可能出现的错误（如权限问题、磁盘空间不足等）。

无论哪种模式，都会循环处理所有文件（黄色决策），直到所有文件都被处理完毕。

处理完成后，生成整理报告，包含文件统计、分类信息、错误列表等。然后询问用户是否保存报告（黄色决策）：如果选择保存，将报告写入JSON文件；否则丢弃报告。

工具结束，返回初始状态。这个流程展示了自动化工具设计的关键要素：输入收集、处理逻辑、用户确认、结果报告。理解这个流程，可以构建各种类型的文件处理自动化工具。

六、核心概念总结

概念	定义	应用场景	注意事项
文件读写	通过文件对象访问磁盘内容	读取配置、保存数据、处理日志	使用with语句确保文件关闭
路径处理	定位和操作文件系统路径	跨平台文件操作、路径拼接	使用pathlib避免手动拼接
目录管理	创建、删除、遍历目录	文件组织、批量操作、搜索	递归操作注意深度和循环
序列化	对象与存储格式转换	数据持久化、对象缓存	JSON安全，Pickle不安全
文件编码	字符与字节转换规则	处理中文文本、跨平台数据	统一使用UTF-8编码
异常处理	错误捕获和处理机制	文件不存在、权限不足	捕获特定异常而非全部

常见问题解答

Q1：处理文件时应该如何选择编码？遇到编码错误怎么办？

答：编码选择取决于数据来源，UTF-8是最安全的选择。

对于新创建的文件，统一使用UTF-8编码（encoding='utf-8'）。UTF-8支持所有Unicode字符，包括中文、日文、emoji等，是现代应用的标准编码。

对于读取已有文件，需要确定文件的原编码。常见的编码包括：UTF-8（现代文件首选）、GBK/GB2312（中文Windows旧文件）、ISO-8859-1（Latin-1）、ASCII（英文文本）。如果不确定，可以尝试以下方法检测编码：

# 方法1: 使用chardet库检测
import chardet
 
with open('unknown.txt', 'rb') as f:
    raw_data = f.read()
    result = chardet.detect(raw_data)
    encoding = result['encoding']
    confidence = result['confidence']
    print(f"检测到编码: {encoding} (置信度: {confidence})")
 
    with open('unknown.txt', 'r', encoding=encoding) as f:
        content = f.read()
 
# 方法2: 尝试常见编码
encodings = ['utf-8', 'gbk', 'gb2312', 'latin-1']
content = None
 
for enc in encodings:
    try:
        with open('file.txt', 'r', encoding=enc) as f:
            content = f.read()
        print(f"成功使用编码: {enc}")
        break
    except UnicodeDecodeError:
        continue
 
if content is None:
    print("无法确定文件编码")

遇到编码错误时，可以指定错误处理策略：errors='ignore'（忽略无法解码的字符）、errors='replace'（用替换字符代替）、errors='backslashreplace'（用转义序列代替）。

# 宽松解码（忽略错误）
with open('file.txt', 'r', encoding='utf-8', errors='ignore') as f:
    content = f.read()

最佳实践是：尽量统一使用UTF-8，对于遗留文件先转换编码再处理，保持编码一致性。

Q2：如何安全地处理文件路径，确保跨平台兼容性？

答：使用pathlib模块是处理路径的现代方式，可以自动处理跨平台差异。

跨平台路径处理的主要挑战是路径分隔符不同（Windows用\，Unix用/）、路径表示方式不同（Windows有盘符）、大小写敏感性不同（Windows不区分大小写）。

pathlib模块通过面向对象的方式抽象了这些差异：

from pathlib import Path
 
# 路径拼接（自动使用正确的分隔符）
path = Path("home") / "user" / "documents" / "file.txt"
 
# 跨平台路径操作
home = Path.home()  # 自动识别主目录位置
cwd = Path.cwd()    # 当前工作目录
 
# 路径规范化
path = Path("folder/subfolder/../file.txt")
normalized = path.resolve()  # 解析所有..和.
 
# 检查路径类型
if path.exists():
    if path.is_file():
        print("是文件")
    elif path.is_dir():
        print("是目录")
 
# 遍历目录
for item in path.parent.iterdir():
    print(item.name)

额外的最佳实践：避免硬编码路径分隔符，不要用字符串拼接路径，使用Path.as_posix()获取POSIX风格路径（用于URL），使用Path.absolute()获取绝对路径避免相对路径的歧义。

对于需要处理不同操作系统的代码，可以使用os.path模块的函数（如os.path.join()、os.path.split()），它们会自动适应当前平台。但pathlib提供了更直观的API，是推荐的选择。

Q3：如何高效地处理大文件，避免内存溢出？

答：处理大文件的关键是分块读取和流式处理，避免一次性加载整个文件。

对于文本文件，使用逐行读取而不是一次性读取全部内容：

# 不好的方式：一次性读取
with open('large.txt', 'r') as f:
    content = f.read()  # 可能消耗大量内存
 
# 好的方式：逐行读取
with open('large.txt', 'r') as f:
    for line in f:
        process_line(line)  # 每次只处理一行

对于二进制文件，使用固定大小的块读取：

def process_binary_file(filepath, chunk_size=4096):
    """分块处理二进制文件"""
    with open(filepath, 'rb') as f:
        while True:
            chunk = f.read(chunk_size)
            if not chunk:
                break
            process_chunk(chunk)
 
# 复制大文件示例
def copy_large(src, dst, buffer_size=1024*1024):
    """高效复制大文件"""
    with open(src, 'rb') as fsrc:
        with open(dst, 'wb') as fdst:
            while True:
                chunk = fsrc.read(buffer_size)
                if not chunk:
                    break
                fdst.write(chunk)

对于CSV文件，使用csv模块的迭代器接口：

import csv
 
# 逐行处理CSV
with open('large.csv', 'r') as f:
    reader = csv.DictReader(f)
    for row in reader:
        process_row(row)  # 每次只处理一行

使用生成器表达式避免创建中间列表：

# 不好的方式：创建完整列表
numbers = [int(line.strip()) for line in open('numbers.txt')]
 
# 好的方式：使用生成器
numbers = (int(line.strip()) for line in open('numbers.txt'))
for num in numbers:
    use(num)

对于极大数据集，考虑使用数据库或内存映射文件（mmap模块），这样可以利用操作系统的虚拟内存管理，按需加载文件部分。

Q4：JSON、CSV、Pickle等序列化格式应该如何选择？

答：选择序列化格式需要考虑数据类型、兼容性、安全性和使用场景。

JSON是最通用的选择，适用于大多数数据交换场景。优点是跨语言支持、人类可读、Web友好、安全（不受信任的数据也可以解析）。缺点是只支持基本数据类型（字符串、数字、布尔、数组、对象），不支持Python特有的类型如set、complex等。适用场景：API数据交换、配置文件、浏览器与服务器通信、长期存储。

CSV适合表格数据的导入导出。优点是Excel兼容、简单易懂、适合数值数据。缺点是只能表示二维表格、缺乏类型信息、处理复杂嵌套结构困难。适用场景：电子表格数据、科学数据导出、简单数据导入导出。

Pickle是Python专用的序列化格式。优点是支持几乎所有Python对象（包括自定义类）、保留对象类型信息。缺点是只能用于Python、不安全（反序列化可能执行任意代码）、不可读。适用场景：临时缓存Python对象、保存程序内部状态、同一程序的短中期存储。

其他选择还包括：YAML（比JSON更易读的配置格式）、MessagePack（二进制JSON，更紧凑）、Protobuf/Thrift（高效的二进制序列化）、SQLite（轻量级数据库）。

决策建议：需要与其他程序或语言交互用JSON，表格数据用CSV，Python内部临时存储用Pickle，复杂持久化考虑数据库。

# 示例：根据需求选择格式
def save_data(data, filepath, format='json'):
    """根据格式保存数据"""
    if format == 'json':
        import json
        with open(filepath, 'w', encoding='utf-8') as f:
            json.dump(data, f)
    elif format == 'csv':
        import csv
        # 假设data是二维列表或字典列表
        with open(filepath, 'w', encoding='utf-8', newline='') as f:
            writer = csv.writer(f)
            writer.writerows(data)
    elif format == 'pickle':
        import pickle
        with open(filepath, 'wb') as f:
            pickle.dump(data, f)

Q5：如何设计一个健壮的文件处理程序，能够处理各种异常情况？

答：健壮的文件处理程序需要全面的异常处理、资源管理和错误恢复机制。

首先是使用with语句确保资源释放：with语句会自动关闭文件，即使发生异常。这是最基本的健壮性保障。

# 好的实践
with open('file.txt', 'r') as f:
    content = f.read()
# 文件自动关闭
 
# 不好的实践
f = open('file.txt', 'r')
content = f.read()
# 如果这里发生异常，文件不会关闭
f.close()

其次是捕获特定的异常，而不是使用裸except：

try:
    with open('file.txt', 'r') as f:
        content = f.read()
except FileNotFoundError:
    print("文件不存在")
except PermissionError:
    print("没有权限访问文件")
except UnicodeDecodeError:
    print("文件编码错误")
except IOError as e:
    print(f"IO错误: {e}")

然后是添加验证和预处理：

def safe_file_operation(filepath):
    """安全的文件操作"""
    # 验证路径
    path = Path(filepath)
 
    if not path.exists():
        raise FileNotFoundError(f"文件不存在: {filepath}")
 
    if not path.is_file():
        raise ValueError(f"不是文件: {filepath}")
 
    # 检查文件大小
    file_size = path.stat().st_size
    if file_size > 100 * 1024 * 1024:  # 100MB
        print(f"警告：文件较大 ({file_size} 字节)")
 
    # 执行操作
    try:
        with open(path, 'r', encoding='utf-8') as f:
            return f.read()
    except Exception as e:
        print(f"处理文件时出错: {e}")
        raise

对于批量操作，添加错误恢复和日志记录：

def batch_process_files(file_paths, skip_errors=True):
    """批量处理文件，可选择跳过错误"""
    results = {'success': [], 'failed': []}
 
    for filepath in file_paths:
        try:
            result = process_file(filepath)
            results['success'].append((filepath, result))
        except Exception as e:
            results['failed'].append((filepath, str(e)))
            if not skip_errors:
                raise
            print(f"跳过错误文件 {filepath}: {e}")
 
    return results
 
def process_file(filepath):
    """处理单个文件"""
    # 具体处理逻辑
    pass

使用重试机制处理临时性错误：

import time
 
def file_operation_with_retry(filepath, max_retries=3, delay=1):
    """带重试的文件操作"""
    for attempt in range(max_retries):
        try:
            with open(filepath, 'r') as f:
                return f.read()
        except (IOError, PermissionError) as e:
            if attempt == max_retries - 1:
                raise
            print(f"尝试 {attempt + 1} 失败，{delay}秒后重试...")
            time.sleep(delay)
            delay *= 2  # 指数退避

最后，添加详细的日志记录和进度报告，帮助调试和监控：

import logging
 
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)
 
def process_with_logging(filepath):
    """带日志记录的文件处理"""
    logger.info(f"开始处理文件: {filepath}")
 
    try:
        with open(filepath, 'r') as f:
            content = f.read()
        logger.info(f"成功读取文件，大小: {len(content)}")
        return content
    except Exception as e:
        logger.error(f"处理文件失败: {e}", exc_info=True)
        raise

这些技术组合起来，可以构建出高度健壮的文件处理程序，能够优雅地处理各种异常情况。

总结

本文全面介绍了Python文件操作和数据存储的核心技术。我们学习了文件的读写方法、路径处理技巧、目录管理操作，理解了JSON、CSV、Pickle等序列化格式，掌握了构建文件自动化工具的实践方法。

文件操作是自动化任务的基础技能，无论是处理日志、分析数据、整理文件，还是构建自动化脚本，都离不开与文件系统的交互。掌握这些技术，可以大大提高工作效率，将重复性劳动转化为自动化任务。

下篇预告

下一篇我们将深入探讨网络数据抓取与处理，带你了解从互联网获取数据的方法。你将学会编写网络爬虫、解析HTML内容、调用API接口，以及处理JSON/CSV/XML等各种数据格式。

51学通信

探索

用Python自动化枯燥的工作第5篇：文件操作与数据存储

用Python自动化枯燥的工作第5篇：文件操作与数据存储

摘要

学习目标

一、文件读写基础：与文件系统交互

1.1 打开和关闭文件

1.2 文件打开模式

1.3 读取文件的不同方法

二、路径处理：跨平台的文件定位

2.1 路径的表示

2.2 pathlib：现代的路径处理库

2.3 os.path：传统的路径处理

2.4 路径处理的最佳实践

三、文件和目录管理：组织你的数据

3.1 创建和删除目录

3.2 复制和移动文件

3.3 批量文件操作

3.4 目录遍历

四、数据序列化：保存和加载数据

4.1 JSON格式

4.2 CSV格式

4.3 Pickle模块

4.4 序列化格式对比

五、实战案例：文件分类整理工具

5.1 需求分析

5.2 完整实现

5.3 扩展功能

六、核心概念总结

常见问题解答

Q1：处理文件时应该如何选择编码？遇到编码错误怎么办？

Q2：如何安全地处理文件路径，确保跨平台兼容性？

Q3：如何高效地处理大文件，避免内存溢出？

Q4：JSON、CSV、Pickle等序列化格式应该如何选择？

Q5：如何设计一个健壮的文件处理程序，能够处理各种异常情况？

总结

下篇预告

关系图谱

目录

51学通信

探索

用Python自动化枯燥的工作 第5篇：文件操作与数据存储

用Python自动化枯燥的工作 第5篇：文件操作与数据存储

摘要

学习目标

一、文件读写基础：与文件系统交互

1.1 打开和关闭文件

1.2 文件打开模式

1.3 读取文件的不同方法

二、路径处理：跨平台的文件定位

2.1 路径的表示

2.2 pathlib：现代的路径处理库

2.3 os.path：传统的路径处理

2.4 路径处理的最佳实践

三、文件和目录管理：组织你的数据

3.1 创建和删除目录

3.2 复制和移动文件

3.3 批量文件操作

3.4 目录遍历

四、数据序列化：保存和加载数据

4.1 JSON格式

4.2 CSV格式

4.3 Pickle模块

4.4 序列化格式对比

五、实战案例：文件分类整理工具

5.1 需求分析

5.2 完整实现

5.3 扩展功能

六、核心概念总结

常见问题解答

Q1：处理文件时应该如何选择编码？遇到编码错误怎么办？

Q2：如何安全地处理文件路径，确保跨平台兼容性？

Q3：如何高效地处理大文件，避免内存溢出？

Q4：JSON、CSV、Pickle等序列化格式应该如何选择？

Q5：如何设计一个健壮的文件处理程序，能够处理各种异常情况？

总结

下篇预告

关系图谱

目录

用Python自动化枯燥的工作第5篇：文件操作与数据存储

用Python自动化枯燥的工作第5篇：文件操作与数据存储