推荐|Python中字节串（bytes）和字符串（string）的区别

Python中字节串（bytes）和字符串（string）的区别

文章目录

Python中字节串（bytes）和字符串（string）的区别

在Python中，字节串（bytes）和字符串（string）是两种不同类型的数据。它们的主要区别在于表示和存储数据的方式。

字节串（bytes）：字节串是由0-255范围内的整数构成的序列，用于在程序中处理8位字节数据。字节串通常用于处理二进制数据，如文件、网络数据等。字节串是不可变的，这意味着你不能更改字节串中的元素。在Python中，你可以通过前缀b或B来表示一个字节串，例如b"Hello"。
字符串（string）：字符串是由Unicode字符组成的序列。在Python中，字符串用于处理文本数据。字符串也是不可变的，这意味着你不能更改字符串中的元素。在Python中，你可以通过前缀u或U来表示一个Unicode字符串，例如u"Hello"。然而，在Python 3中，所有的字符串默认都是Unicode字符串，所以前缀u或U不再需要。

字节串和字符串之间可以互相转换。例如，你可以使用str.encode()方法将字符串转换为字节串，使用bytes.decode()方法将字节串转换为字符串。

# 字符串转字节串  
string = "Hello"  
bytes_data = string.encode()  
print(bytes_data)  # 输出：b'Hello'  
  
# 字节串转字符串  
bytes_data = b'Hello'  
string_data = bytes_data.decode()  
print(string_data)  # 输出：Hello
1
2
3
4
5
6
7
8
9

总结，字节串和字符串的主要区别在于：字节串用于处理二进制数据，而字符串用于处理文本数据。

在Python中，字节串（bytes）和字符串（string）是两种不同的数据类型，它们的主要区别在于表示和存储数据的方式。

字节串（bytes）：
字节串是由0-255范围内的整数构成的序列，用于在程序中处理8位字节数据。字节串通常用于处理二进制数据，如文件、网络数据等。字节串是不可变的，这意味着一旦创建了一个字节串，就不能修改它。

示例：

# 创建一个字节串  
byte_data = b"xFEx00"  
print(byte_data)  # 输出：b'xfex00'
1
2
3

字符串（string）：
字符串是由Unicode字符组成的序列。在Python中，字符串用于处理文本数据，可以包含各种字符，包括字母、数字、符号等。字符串也是不可变的。

示例：

# 创建一个字符串  
string_data = "u00FE"  
print(string_data)  # 输出：þ
1
2
3

区别：

字节串用于处理二进制数据，而字符串用于处理文本数据。
字节串中的元素是整数，而字符串中的元素是Unicode字符。
字节串通常用于处理网络数据、文件等二进制数据，而字符串适用于处理文本信息。
在某些情况下，字节串和字符串可以互相转换，但它们的本质是不同的数据类型。

转换：

字符串转换为字节串：str.encode() 方法将字符串编码为字节串。
字节串转换为字符串：bytes.decode() 方法将字节串解码为字符串。

《AUTOSAR谱系分解(ETAS工具链)》之总目录

id="article_content" class="article_content clearfix" style="height: 2000px; overflow: hidden;"> id="content_views" class="htmledit_views">

0 前言

本文为李宏毅学习笔记——2024春《GENERATIVE AI》篇——作业笔记HW10。

如果你还没获取到LLM API，请查看我的另一篇笔记：

HW1~2：LLM API获取步骤及LLM API使用演示：环境配置与多轮对话演示-CSDN博客

完整内容参见：

李宏毅学习笔记——2024春《GENERATIVE AI》篇

总得拆开炼丹炉看看是什么样的。这篇文章将带你从代码层面一步步实现 AI 文本生成图像（Text-to-Image）中的 LoRA 微调过程，你将：

了解 Trigger Words（触发词）到底是什么，以及它们如何影响生成结果。
掌握 LoRA 微调的基本原理。
学习数据集的准备与结构，并知道如何根据需求定制自己的数据集。
理解 Stable Diffusion 模型的微调步骤。
明白在画图界面（UI）下到底发生了什么。
使用代码实现 AI 绘画。

如果你想制作属于自己的数据集，最好遵循以下建议：

至少准备 20 张图片：想学到的概念越复杂就需要越多的图片。你可以尝试将样例数据集的图片数量减少到 20 张，看看效果会有什么变化。
裁剪图片：建议对图片进行裁剪，当然你也可以不裁剪，如果你不追求效果的话。这里会自动 resize 到自定义的分辨率。

与其花费大量时间去调参，更优的选择是处理好你的数据集和 Prompts。当然，这两件事情可以同步进行。

注意，当前文章使用的是自然语言标注（而非 Tag），你也可以使用 Tag，这两种方式本质上是一致的。

同时，如果你对深度学习有所了解，那么代码中的一切，都将是你曾经见过的内容翻版，没有什么新的，除了 LoRA。我们将同步使用演员 Brad Pitt（布拉德·皮特）的图片作为训练集，共计一百张。

1 前言

下面是使用 prompt："A man in a graphic tee and sport coat."，在默认设置下训练 2000 个步骤后模型生成的图像，训练时长约为 18 分钟。乍一看，是不是还挺不错的？

你可能会注意到，我们的 prompt 中并没有提到 Brad Pitt（布拉德·皮特）这个演员（尽管我们的数据集完全来自于他），但模型却能够绘制长得像 Brad Pitt 的人。

这是因为，如果我们在 prompt 中直接指定 "Brad Pitt"，模型可能无法完全学习到他的特征风格。举个例子：

"A man in a graphic tee and sport coat. Brad Pitt."
"A man in a graphic tee and sport coat."

第一条 prompt 显然更精准，但精准并不意味着模型训练得更好。如果你用一系列包含 "Brad Pitt" 的 prompt 来训练，模型更有可能学到的是：只有在加上 "Brad Pitt" 时才进行风格转变。你可能会说：“我就是想要这个效果”，那么很好，"Brad Pitt" 就是你模型的 Trigger Word（触发词）。但有可能还有同学：“我希望模型只为 Brad Pitt 服务，我要把所有的 'man' 都变成 Brad Pitt”，那么在训练时就不要在 prompt 中增加 "Brad Pitt"。简而言之：反着来。

这实际上并没有反直觉，跳出来想一想：

想象一下你是一位画家，生活在一个从不变暗的世界里，整个世界永远是白天，你已经习惯画出白天背景下的各种景象，但你不知道白天是什么，这就是你所熟知的「日常」。
有一天，有人给你看了一些照片，说：“Hey，实际上世界可以是黑的，叫做夜晚”，这时候你就会理解到，日常是有另一种状态的，叫做夜晚，即便你以前从来没有过概念，但现在，你将认知到它，你将这部分新的概念聚焦到了「夜晚」。于是，从此以后，你的画作被分为了「日常」和「日常，夜晚」。
同时，在另一个平行世界，有人告诉你：“你眼中看到的世界是不对的”，他们“治”好了你的眼睛，向你展示了一个完全陌生的漆黑世界，并承诺只要你学会画出这种风格的画作，将会获得丰厚的回报，否则将无人问津你的画摊。于是你开始画“夜晚”风格的「日常」。

这是杜攥的三个小片段，希望你喜欢。

你可以分别将它理解为：

原始模型：活在自己世界的画家。
LoRA 微调：当新标签（Tag）“夜晚”被引入，画家学会了夜晚的概念。Prompt：夜晚，日常。
另一个 LoRA 微调：迁移风格，画家将“夜晚”视为真正的日常风格。Prompt：日常。

因此，训练模型就像教小朋友认知世界。如果你将世界分解为不同的概念并逐一传授，孩子会学到不同的知识。这就类似于模型学习不同的标签和风格。如果你不明确区分概念，并将新概念混杂在已有的认知中，孩子的认知会被重塑，或许会将鹿“误”认为马。这是合理的，模型也是如此，取决于你如何教导（prompt）它。

Prompt 小技巧：

明确你的目标：在训练前，思考你是希望模型学习特定的风格、特定的人物，还是希望模型在特定的场景下才生成特定的效果。到底是希望所有的 man 都是 Brad Pitt，还是希望模型知道 Brad Pitt 是一个 man。
保持一致性：如果你希望将某个概念拆分出来，应该为它创建一个特定的标签（tag），并应用于具有相同概念的图像上。

大模型很聪明，它会自动将图像中的共性归因于共用的标签上。因此，如果不给它新的标签，它会将新学到的内容融入到已有的标签中。

这些是关于 AI 绘画 Prompt + 微调背后逻辑的大白话。扯远了，让我们回到代码部分 :)

2 开始动手

下面，我将带你从代码层面一步步实现 LoRA 微调 Stable Diffusion 模型。注意，这里的知识是通用的，你完全可以推广至任何需要 LoRA 微调的领域。

3 安装必要的库

首先，确保安装以下必要的 Python 库：

 class="hljs-ln-numbers"> class="hljs-ln-line hljs-ln-n" data-line-number="1">

Python中字节串（bytes）和字符串（string）的区别

文章目录

0 前言

1 前言

2 开始动手

3 安装必要的库

4 导入

5 准备数据

6 设置项目路径

7 导入数据

7.1 怎么扩充数据集？

7.2 怎么让模型理解文本？

具体解释：

7.3 自定义数据集

8 定义微调相关的函数

8.1 加载 LoRA

8.2 准备优化器

8.3 定义 collate_fn 函数

9 设置相关参数

9.1 设备配置

9.2 模型与训练参数配置

10 微调前的准备

10.1 准备数据集

10.2 准备模型和优化器

11 开始微调

12 生成图像和评估

12.1 什么是 pipeline？

12.2 推理相关的参数

12.3 加载用于验证的 prompts

12.4 定义生成图像的函数

12.5 定义评估函数

13 拓展作业

14 用脚本微调 SD（可选）

14.1 克隆仓库

14.2 执行脚本

15 参考链接

评论记录：