def xywh2xyxy(x):
    # 将边界框从 (x_center, y_center, w, h) 格式转换为 (x1, y1, x2, y2)
    y = np.copy(x)

    # 计算左上角坐标 x1 和 y1
    y[..., 0] = x[..., 0] - x[..., 2] / 2  # x1 = x_center - w / 2
    y[..., 1] = x[..., 1] - x[..., 3] / 2  # y1 = y_center - h / 2

    # 计算右下角坐标 x2 和 y2
    y[..., 2] = x[..., 0] + x[..., 2] / 2  # x2 = x_center + w / 2
    y[..., 3] = x[..., 1] + x[..., 3] / 2  # y2 = y_center + h / 2

    return y

def multiclass_nms(boxes, scores, class_ids, iou_threshold):

    # 获取所有唯一的类别索引
    unique_class_ids = np.unique(class_ids)

    keep_boxes = []  # 存储最终保留的边界框索引
    for class_id in unique_class_ids:
        # 筛选出属于当前类别的边界框索引
        class_indices = np.where(class_ids == class_id)[0] # np.where返回元组
        # 提取属于当前类别的边界框和分数
        class_boxes = boxes[class_indices, :]   # 当前类别的边界框
        class_scores = scores[class_indices]   # 当前类别的分数

        # 执行 NMS 并获取保留下来的索引
        class_keep_boxes = nms(class_boxes, class_scores, iou_threshold)

        # 将保留的索引(对应原始的索引)添加到结果中

    return keep_boxes

def nms(boxes, scores, iou_threshold):
    # 根据 scores 对检测框从高到低进行排序,得到排序后的索引
    sorted_indices = np.argsort(scores)[::-1] # [::-1] 反转排序顺序

    keep_boxes = []
    while sorted_indices.size > 0:
        # 保留最高分数的边界框
        box_id = sorted_indices[0]

        # 计算当前最高分数的边界框与剩余边界框的 IoU
        ious = compute_iou(boxes[box_id, :], boxes[sorted_indices[1:], :])

        # 找出 IoU 小于阈值的边界框索引,保留这些框,过滤重叠框
        keep_indices = np.where(ious < iou_threshold)[0]

        # 注意:由于 keep_indices 是相对于 sorted_indices[1:] 的索引,
        # 需要将其整体偏移 +1 来匹配到原始 sorted_indices
        sorted_indices = sorted_indices[keep_indices + 1]

    return keep_boxes

def compute_iou(box, boxes):

    # 计算交集区域的坐标,xmin 和 ymin: 交集左上角的坐标,xmax 和 ymax: 交集右下角的坐标
    xmin = np.maximum(box[0], boxes[:, 0]) 
    ymin = np.maximum(box[1], boxes[:, 1]) 
    xmax = np.minimum(box[2], boxes[:, 2]) 
    ymax = np.minimum(box[3], boxes[:, 3])  

    # 计算交集区域面积,如果两个框没有重叠,交集宽度和高度会为负,使用 np.maximum 保证面积非负
    intersection_area = np.maximum(0, xmax - xmin) * np.maximum(0, ymax - ymin)

    # 计算每个边界框的面积
    box_area = (box[2] - box[0]) * (box[3] - box[1])  
    boxes_area = (boxes[:, 2] - boxes[:, 0]) * (boxes[:, 3] - boxes[:, 1])  

    # 计算并集区域面积
    union_area = box_area + boxes_area - intersection_area

    # 计算 IoU(交并比)
    iou = intersection_area / union_area  # 交集区域面积 / 并集区域面积

    return iou

def process_output(outputs, conf_threshold, iou_threshold, input_width, input_height, img_width, img_height):

    predictions = np.squeeze(outputs[0]).T # 去除数组中形状为1的维度,批量维度,(1, N, M)->(M, N)

    # 获取每个检测框的置信度最高的类别
    scores = np.max(predictions[:, 4:], axis=1) # 在行方向上取最大值
    # 根据置信度阈值过滤掉低置信度的检测框
    predictions = predictions[scores > conf_threshold, :]
    scores = scores[scores > conf_threshold]

    if len(scores) == 0:
        return [], [], []

    # 获取检测框的类别置信度最高的索引
    class_ids = np.argmax(predictions[:, 4:], axis=1) # 返回数组中最大值的索引

    # 提取边界框
    boxes = predictions[:, :4]
    # 将边界框坐标从归一化坐标还原到原图尺寸
    input_shape = np.array([input_width, input_height, input_width, input_height])
    boxes = np.divide(boxes, input_shape, dtype=np.float32) # 边界框坐标是相对于输入图像尺寸的,归一化到 [0, 1] 之间
    boxes *= np.array([img_width, img_height, img_width, img_height]) # 将归一化的坐标还原到原图尺寸

    # 转换为 xyxy 格式
    boxes = xywh2xyxy(boxes)

    # 执行非极大值抑制(NMS)
    indices = multiclass_nms(boxes, scores, class_ids, iou_threshold)

    return boxes[indices], scores[indices], class_ids[indices]
3.1.3 代码部署


import numpy as np
import cv2

class_names = ['person','head','helmet']

# Create a list of colors for each class where each color is a tuple of 3 integer values
rng = np.random.default_rng(3)
colors = rng.uniform(0, 255, size=(len(class_names), 3))

def nms(boxes, scores, iou_threshold):
    # Sort by score
    sorted_indices = np.argsort(scores)[::-1]

    keep_boxes = []
    while sorted_indices.size > 0:
        # Pick the last box
        box_id = sorted_indices[0]

        # Compute IoU of the picked box with the rest
        ious = compute_iou(boxes[box_id, :], boxes[sorted_indices[1:], :])

        # Remove boxes with IoU over the threshold
        keep_indices = np.where(ious < iou_threshold)[0]

        # print(keep_indices.shape, sorted_indices.shape)
        sorted_indices = sorted_indices[keep_indices + 1]

    return keep_boxes

def multiclass_nms(boxes, scores, class_ids, iou_threshold):

    unique_class_ids = np.unique(class_ids)

    keep_boxes = []
    for class_id in unique_class_ids:
        class_indices = np.where(class_ids == class_id)[0]
        class_boxes = boxes[class_indices,:]
        class_scores = scores[class_indices]

        class_keep_boxes = nms(class_boxes, class_scores, iou_threshold)

    return keep_boxes

def compute_iou(box, boxes):
    # Compute xmin, ymin, xmax, ymax for both boxes
    xmin = np.maximum(box[0], boxes[:, 0])
    ymin = np.maximum(box[1], boxes[:, 1])
    xmax = np.minimum(box[2], boxes[:, 2])
    ymax = np.minimum(box[3], boxes[:, 3])

    # Compute intersection area
    intersection_area = np.maximum(0, xmax - xmin) * np.maximum(0, ymax - ymin)

    # Compute union area
    box_area = (box[2] - box[0]) * (box[3] - box[1])
    boxes_area = (boxes[:, 2] - boxes[:, 0]) * (boxes[:, 3] - boxes[:, 1])
    union_area = box_area + boxes_area - intersection_area

    # Compute IoU
    iou = intersection_area / union_area

    return iou

def xywh2xyxy(x):
    # Convert bounding box (x, y, w, h) to bounding box (x1, y1, x2, y2)
    y = np.copy(x)
    y[..., 0] = x[..., 0] - x[..., 2] / 2
    y[..., 1] = x[..., 1] - x[..., 3] / 2
    y[..., 2] = x[..., 0] + x[..., 2] / 2
    y[..., 3] = x[..., 1] + x[..., 3] / 2
    return y

def draw_detections(image, boxes, scores, class_ids, mask_alpha=0.3):
    det_img = image.copy()

    img_height, img_width = image.shape[:2]
    font_size = min([img_height, img_width]) * 0.0006
    text_thickness = int(min([img_height, img_width]) * 0.001)

    det_img = draw_masks(det_img, boxes, class_ids, mask_alpha)

    # Draw bounding boxes and labels of detections
    for class_id, box, score in zip(class_ids, boxes, scores):
        color = colors[class_id]

        draw_box(det_img, box, color)

        label = class_names[class_id]
        caption = f'{label} {int(score * 100)}%'
        draw_text(det_img, caption, box, color, font_size, text_thickness)

    return det_img

def draw_box( image: np.ndarray, box: np.ndarray, color: tuple[int, int, int] = (0, 0, 255),
             thickness: int = 2) -> np.ndarray:
    x1, y1, x2, y2 = box.astype(int)
    return cv2.rectangle(image, (x1, y1), (x2, y2), color, thickness)

def draw_text(image: np.ndarray, text: str, box: np.ndarray, color: tuple[int, int, int] = (0, 0, 255),
              font_size: float = 0.001, text_thickness: int = 2) -> np.ndarray:
    x1, y1, x2, y2 = box.astype(int)
    (tw, th), _ = cv2.getTextSize(text=text, fontFace=cv2.FONT_HERSHEY_SIMPLEX,
                                  fontScale=font_size, thickness=text_thickness)
    th = int(th * 1.2)

    cv2.rectangle(image, (x1, y1),
                  (x1 + tw, y1 - th), color, -1)

    return cv2.putText(image, text, (x1, y1), cv2.FONT_HERSHEY_SIMPLEX, font_size, (255, 255, 255), text_thickness, cv2.LINE_AA)

def draw_masks(image: np.ndarray, boxes: np.ndarray, classes: np.ndarray, mask_alpha: float = 0.3) -> np.ndarray:
    mask_img = image.copy()

    # Draw bounding boxes and labels of detections
    for box, class_id in zip(boxes, classes):
        color = colors[class_id]

        x1, y1, x2, y2 = box.astype(int)

        # Draw fill rectangle in mask image
        cv2.rectangle(mask_img, (x1, y1), (x2, y2), color, -1)

    return cv2.addWeighted(mask_img, mask_alpha, image, 1 - mask_alpha, 0)

import time
import cv2
import numpy as np
import onnxruntime

from detection.utils import xywh2xyxy, draw_detections, multiclass_nms

class TargetDetection:
    def __init__(self, path, conf_thres=0.7, iou_thres=0.5):
        self.conf_threshold = conf_thres
        self.iou_threshold = iou_thres

        # Initialize model

    def __call__(self, image):
        return self.detect_objects(image)

    def initialize_model(self, path):
        self.session = onnxruntime.InferenceSession(path,providers=onnxruntime.get_available_providers())
        # Get model info

    def detect_objects(self, image):
        input_tensor = self.prepare_input(image)

        # Perform inference on the image
        outputs = self.inference(input_tensor)

        self.boxes, self.scores, self.class_ids = self.process_output(outputs)

        return self.boxes, self.scores, self.class_ids

    def prepare_input(self, image):
        self.img_height, self.img_width = image.shape[:2]

        input_img = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

        # Resize input image
        input_img = cv2.resize(input_img, (self.input_width, self.input_height))

        # Scale input pixel values to 0 to 1
        input_img = input_img / 255.0
        input_img = input_img.transpose(2, 0, 1)
        input_tensor = input_img[np.newaxis, :, :, :].astype(np.float32)

        return input_tensor

    def inference(self, input_tensor):
        start = time.perf_counter()
        outputs = self.session.run(self.output_names, {self.input_names[0]: input_tensor})

        # print(f"Inference time: {(time.perf_counter() - start)*1000:.2f} ms")
        return outputs

    def process_output(self, output):
        predictions = np.squeeze(output[0]).T

        # Filter out object confidence scores below threshold
        scores = np.max(predictions[:, 4:], axis=1)
        predictions = predictions[scores > self.conf_threshold, :]
        scores = scores[scores > self.conf_threshold]

        if len(scores) == 0:
            return [], [], []

        # Get the class with the highest confidence
        class_ids = np.argmax(predictions[:, 4:], axis=1)

        # Get bounding boxes for each object
        boxes = self.extract_boxes(predictions)

        # Apply non-maxima suppression to suppress weak, overlapping bounding boxes
        # indices = nms(boxes, scores, self.iou_threshold)
        indices = multiclass_nms(boxes, scores, class_ids, self.iou_threshold)

        return boxes[indices], scores[indices], class_ids[indices]

    def extract_boxes(self, predictions):
        # Extract boxes from predictions
        boxes = predictions[:, :4]

        # Scale boxes to original image dimensions
        boxes = self.rescale_boxes(boxes)

        # Convert boxes to xyxy format
        boxes = xywh2xyxy(boxes)

        return boxes

    def rescale_boxes(self, boxes):

        # Rescale boxes to original image dimensions
        input_shape = np.array([self.input_width, self.input_height, self.input_width, self.input_height])
        boxes = np.divide(boxes, input_shape, dtype=np.float32)
        boxes *= np.array([self.img_width, self.img_height, self.img_width, self.img_height])
        return boxes

    def draw_detections(self, image, draw_scores=True, mask_alpha=0.4):

        return draw_detections(image, self.boxes, self.scores,
                               self.class_ids, mask_alpha)

    def get_input_details(self):
        model_inputs = self.session.get_inputs()
        self.input_names = [model_inputs[i].name for i in range(len(model_inputs))]

        self.input_shape = model_inputs[0].shape
        self.input_height = self.input_shape[2]
        self.input_width = self.input_shape[3]


    def get_output_details(self):
        model_outputs = self.session.get_outputs()
        self.output_names = [model_outputs[i].name for i in range(len(model_outputs))]

import cv2
from detection.target_detection import TargetDetection
from detection.utils import draw_detections

# yolov8 onnx 模型推理
class ATDetector():
    def __init__(self):
        super(ATDetector, self).__init__()
        self.model_path = "../yolov8s_best.onnx"
        self.detector = TargetDetection(self.model_path, conf_thres=0.5, iou_thres=0.3)

    def detect_image(self, input_image, output_image):
        cv_img = cv2.imread(input_image)
        boxes, scores, class_ids = self.detector.detect_objects(cv_img)
        cv_img = draw_detections(cv_img, boxes, scores, class_ids)
        cv2.namedWindow("output", cv2.WINDOW_NORMAL)
        cv2.imwrite(output_image, cv_img)
        cv2.imshow('output', cv_img)

    def detect_video(self, input_video, output_video):
        cap = cv2.VideoCapture(input_video)
        fps = int(cap.get(5))
        videoWriter = None

        while True:
            _, cv_img = cap.read()
            if cv_img is None:
            boxes, scores, class_ids = self.detector.detect_objects(cv_img)
            cv_img = draw_detections(cv_img, boxes, scores, class_ids)

            # 如果视频写入器未初始化,则使用输出视频路径和参数进行初始化
            if videoWriter is None:
                fourcc = cv2.VideoWriter_fourcc('m', 'p', '4', 'v')
                # 在这里给值了,它就不是None, 下次判断它就不进这里了
                videoWriter = cv2.VideoWriter(output_video, fourcc, fps, (cv_img.shape[1], cv_img.shape[0]))

            cv2.imshow("aod", cv_img)

            # 等待按键并检查窗口是否关闭
            if cv2.getWindowProperty("aod", cv2.WND_PROP_AUTOSIZE) < 1:
                # 点x退出


if __name__ == '__main__':
    det = ATDetector()
    # input_image = "../data/A_905.jpg"
    # output_image = '../data/output.jpg'
    # det.detect_image(input_image, output_image)

3.2 C++实现

3.2.1 为什么呢???

3.2.2 安装依赖库

(1)下载ONNX Runtime

笔者的环境是Windows11,CUDA 11.7,cuDNN 8.5,IDE是 vs2019。下载的ONNX Runtime的CPU和GPU版本为1.14.1。下载链接为https://github.com/microsoft/onnxruntime/releases/tag/v1.14.1



笔者下载的opencv 版本为 4.7.0 ,下载链接为 https://opencv.org/releases/


(3)配置ONNX Runtime和OpenCV

下载完成后解压,在项目属性配置ONNX Runtime和OpenCV。
首先:把ONNX Runtime和OpenCV加入到包含目录,路径里面包含ONNX Runtime和OpenCV的头文件。
接着:把ONNX Runtime和OpenCV加入到库目录,路径里面包含ONNX Runtime和OpenCV的lib文件。
然后:把ONNX Runtime和OpenCV的lib文件名添加到链接器。
最后:把ONNX Runtime和OpenCV的 dll 文件名添加到项目工程的 Release 下。

3.2.3 推理步骤

同Python语言实现一样,模型推理部署需要三大步骤:预处理、模型推理、后处理。在这里,笔者重点介绍 使用C++实现模型推理的流程。

a. 引入头文件
b. 初始化 ONNX Runtime 环境和会话
Step 1: 创建 ONNX Runtime 环境
env = Ort::Env(OrtLoggingLevel::ORT_LOGGING_LEVEL_WARNING, "YOLOV8");
Ort::Env 是 ONNX Runtime 中的环境对象,它是一个全局性的对象,用于初始化和管理 ONNX Runtime 运行时环境。

ONNX Runtime 支持的日志级别:

Step 2: 创建 ONNX Runtime 会话选项

设置 ONNX Runtime 会话的选项。这可能包括配置 GPU 使用、优化器级别、执行模式等。

sessionOptions = Ort::SessionOptions();
它控制 ONNX 模型在推理时的行为,包括:线程数(并行计算能力);优化级别(对模型进行图优化);CUDA 使用(GPU 加速);内存分配器;会话日志设置 等。

// 设置线程数
//设置使用 GPU 推理加速
OrtCUDAProviderOptions cudaOption;//OrtCUDAProviderOptions 是 ONNX Runtime 提供的一个结构体,用于配置 CUDA GPU 推理选项,当在 GPU 上使用 ONNX Runtime 时,需要通过该结构体指定 CUDA 相关参数。
// 设置图优化级别为全部优化(最大优化)

在 ONNX Runtime 中,SetGraphOptimizationLevel 用于设置图优化的级别,影响模型执行时的效率和性能。图优化有助于提高推理速度和减少内存消耗。不同的优化级别会对模型执行过程中的节点、计算图进行不同程度的优化。



Step 3: 加载 ONNX 模型文件

加载预训练的 ONNX 模型文件。
使用运行时环境、会话选项和模型创建一个 Ort::Session 对象。

const wchar_t* modelPath = "yolov8.onnx";
Ort::Session session(env, modelPath, sessionOptions);
其中,第二个参数modelPath,模型的路径需要以宽字符(wchar_t*)格式传递。因为Windows 系统中的文件路径通常使用宽字符编码(wchar_t)。

可以使用c_str() 方法,它返回 std::wstring 对象的指针,确保符合 Ort::Session 构造函数所需的格式。方便与需要const char或const wchar_t类型的 C 风格函数或库(如 OpenCV、ONNX Runtime 等)兼容。

如果你的模型路径原本是 std::string 类型,可以通过一个转换函数将其转换为 std::wstring,例如:

std::wstring w_modelPath = utils::charToWstring(modelPath.c_str());

std::wstring utils::charToWstring(const char *str)
    typedef std::codecvt_utf8<wchar_t> convert_type;
    //std::codecvt_utf8 是一种转换类型,用于将UTF-8字符串与wchar_t宽字符字符串之间进行相互转换。
    std::wstring_convert<convert_type, wchar_t> converter;
	//std::wstring_convert 需要一个编码转换类型(如std::codecvt_utf8)和一个宽字符类型(如 wchar_t)
    return converter.from_bytes(str);
c. 获取模型输入/输出信息

从 Ort::Session 对象中获取模型输入和输出的详细信息,包括数量、名称、类型和形状。

在 ONNX Runtime 中,Ort::Session 提供了两种方法来获取模型输入/输出名称:

使用用户提供的内存分配器,如 Ort::AllocatorWithDefaultOptions。
返回的是 char*,指向分配的内存区域。
需要用户确保分配的内存不会泄漏,ONNX Runtime 不自动释放它。如果分配器没有释放功能,可能导致内存泄漏。
需要搭配 allocator.Free(inputName); // 释放名称内存

直接返回一个 Ort::AllocatedStringPtr对象(封装了分配的字符串指针和释放逻辑),而不是简单的 char*。
内存管理更为安全,因为返回的 Ort::AllocatedStringPtr 是 RAII 风格的对象,自动释放内存。

Ort::AllocatorWithDefaultOptions allocator;
//ONNX Runtime 提供的一个默认内存分配器类,用于管理内存资源,特别是在获取模型输入/输出的元数据(如名称、形状)时非常有用

// 获取输入信息
std::vector<const char *> inputNames;
std::vector<Ort::AllocatedStringPtr> input_names_ptr;
std::vector<std::vector<int64_t>> inputShapes;
bool isDynamicInputShape{};

size_t numInputNodes = session.GetInputCount(); //输入数量
for (size_t i = 0; i < numInputNodes; ++i) 
	// 输入名称
    auto input_name= session.GetInputNameAllocated(i, allocator);
    inputNames.push_back(input_name.get());//get 返回指向的原始字符串指针,也就是 const char* 类型
    // 输入类型和形状
    Ort::TypeInfo inputTypeInfo = session.GetInputTypeInfo(i);
	std::vector<int64_t> inputTensorShape = inputTypeInfo.GetTensorTypeAndShapeInfo().GetShape();
    isDynamicInputShape = false;// checking if width and height are dynamic
    if (inputTensorShape[2] == -1 && inputTensorShape[3] == -1)
        std::cout << "Dynamic input shape" << std::endl;
        this->isDynamicInputShape = true;

// 获取输出信息
std::vector<const char *> outputNames;
std::vector<Ort::AllocatedStringPtr> output_names_ptr;
std::vector<std::vector<int64_t>> outputShapes;
int classNums = 3;

size_t numOutputNodes = session.GetOutputCount();//大于1,分割
if (num_output_nodes > 1)
    hasMask = true;
    std::cout << "Instance Segmentation" << std::endl;
    std::cout << "Object Detection" << std::endl;
for (size_t i = 0; i < numOutputNodes; ++i) 
    // 输出名称
    auto output_name = session.GetOutputNameAllocated(i, allocator);
	// 输出类型和形状
    Ort::TypeInfo outputTypeInfo = session.GetOutputTypeInfo(i);
    std::vector<int64_t> outputTensorShape = outputTypeInfo.GetTensorTypeAndShapeInfo().GetShape();
    if (i == 0)
        if (!this->hasMask)
            classNums = outputTensorShape[1] - 4;
            classNums = outputTensorShape[1] - 4 - 32;

 class="hljs-button signin active" data-title="登录复制" data-report-click="{"spm":"1001.2101.3001.4334"}">



d. 创建输入张量
std::vector<Ort::Value> inputTensors;

Ort::MemoryInfo memoryInfo = Ort::MemoryInfo::CreateCpu(OrtAllocatorType::OrtArenaAllocator, OrtMemType::OrtMemTypeDefault);//表示输入张量数据存储在 CPU 内存中

        memoryInfo, inputTensorValues.data(), inputTensorSize,
        inputTensorShape.data(), inputTensorShape.size()));//将数据创建为一个 ONNX Tensor

memoryInfo:内存信息,表示数据存储在 CPU 上。
inputTensorValues.data():指向 Tensor 数据的起始位置。
inputTensorSize:Tensor 数据的元素个数。
inputTensorShape.data():Tensor 形状的指针。
inputTensorShape.size():Tensor 形状的维度数量。

e. 进行推理
std::vector<Ort::Value> outputTensors = session.Run(Ort::RunOptions{nullptr}, 
                                 inputNames.data(), inputTensors.data(), 1, 
                                 outputNames.data(), outputNames.size());
run 参数解释:
Ort::RunOptions{nullptr}:RunOptions 是 ONNX Runtime 执行配置对象,这里传入 nullptr 使用默认配置。
inputNames.data():输入 Tensor 名称数组的指针,指定模型输入的名称。
inputTensors.data():输入 Tensor 数据的指针,指定输入数据。
1:表示输入 Tensor 数量。
outputNames.data():输出 Tensor 名称数组的指针,指定需要输出的节点名称。
outputNames.size():输出 Tensor 数量。

Run 返回一个包含 输出 Tensor 的向量 std::vectorOrt::Value,每个 Ort::Value 包含模型的一个输出。


3.2.4 代码部署


#include "utils.h"

size_t utils::vectorProduct(const std::vector<int64_t> &vector)
    if (vector.empty())
        return 0;

    size_t product = 1;
    for (const auto &element : vector)
        product *= element;

    return product;

std::wstring utils::charToWstring(const char *str)
    typedef std::codecvt_utf8<wchar_t> convert_type;//std::codecvt_utf8 是一种 转换类型,用于将 UTF-8 字符串与 wchar_t 宽字符字符串之间进行相互转换。
    //在 Windows 系统中,wchar_t 通常是 UTF-16 编码。
    //在 Linux / Unix 系统中,wchar_t 通常是 UTF - 32 编码。
    std::wstring_convert<convert_type, wchar_t> converter;
    //std::wstring_convert 需要一个 编码转换类型(如 std::codecvt_utf8)和一个 宽字符类型(如 wchar_t)

    return converter.from_bytes(str);

std::vector<std::string> utils::loadNames(const std::string &path)
    // load class names
    std::vector<std::string> classNames;
    std::ifstream infile(path);
    if (infile.good())
        std::string line;
        while (getline(infile, line))
            if (line.back() == '\r')
        std::cerr << "ERROR: Failed to access class name path: " << path << std::endl;
    // set color

    for (int i = 0; i < 2 * classNames.size(); i++)
        int b = rand() % 256;
        int g = rand() % 256;
        int r = rand() % 256;
        colors.push_back(cv::Scalar(b, g, r));
    return classNames;

void utils::visualizeDetection(cv::Mat &im, std::vector<Yolov8Result> &results,
                               const std::vector<std::string> &classNames)
    cv::Mat image = im.clone();
    for (const Yolov8Result &result : results)

        int x = result.box.x;
        int y = result.box.y;

        int conf = (int)std::round(result.conf * 100);
        int classId = result.classId;
        std::string label = classNames[classId] + " 0." + std::to_string(conf);

        int baseline = 0;
        cv::Size size = cv::getTextSize(label, cv::FONT_ITALIC, 0.4, 1, &baseline);
        image(result.box).setTo(colors[classId + classNames.size()], result.boxMask);
        cv::rectangle(image, result.box, colors[classId], 2);
                      cv::Point(x, y), cv::Point(x + size.width, y + 12),
                      colors[classId], -1);
        cv::putText(image, label,
                    cv::Point(x, y - 3 + 12), cv::FONT_ITALIC,
                    0.4, cv::Scalar(0, 0, 0), 1);
    cv::addWeighted(im, 0.4, image, 0.6, 0, im);

void utils::letterbox(const cv::Mat &image, cv::Mat &outImage,
                      const cv::Size &newShape = cv::Size(640, 640),
                      const cv::Scalar &color = cv::Scalar(114, 114, 114),
                      bool auto_ = true,//是否根据步幅对填充尺寸进行自动调整
                      bool scaleFill = false,//是否强制将图像拉伸到目标尺寸(忽略长宽比)
                      bool scaleUp = true,//是否允许放大图像,如果为 false,图像只会缩小或保持原始尺寸
                      int stride = 32)//对齐步幅,用于控制填充的边缘尺寸
    cv::Size shape = image.size();
    float r = std::min((float)newShape.height / (float)shape.height,
                       (float)newShape.width / (float)shape.width);
    //如果 scaleUp 为 false,缩放比例 r 被限制为 1.0,确保图像不会被放大(仅会缩小或保持原尺寸
    if (!scaleUp)
        r = std::min(r, 1.0f);
    float ratio[2]{r, r};
    int newUnpad[2]{(int)std::round((float)shape.width * r),
                    (int)std::round((float)shape.height * r)};
    auto dw = (float)(newShape.width - newUnpad[0]);
    auto dh = (float)(newShape.height - newUnpad[1]);

    if (auto_)
        dw = (float)((int)dw % stride);
        dh = (float)((int)dh % stride);
    else if (scaleFill)
        dw = 0.0f;
        dh = 0.0f;
        newUnpad[0] = newShape.width;
        newUnpad[1] = newShape.height;
        ratio[0] = (float)newShape.width / (float)shape.width;
        ratio[1] = (float)newShape.height / (float)shape.height;

    dw /= 2.0f;
    dh /= 2.0f;

    if (shape.width != newUnpad[0] && shape.height != newUnpad[1])
        cv::resize(image, outImage, cv::Size(newUnpad[0], newUnpad[1]));

    int top = int(std::round(dh - 0.1f));
    int bottom = int(std::round(dh + 0.1f));
    int left = int(std::round(dw - 0.1f));
    int right = int(std::round(dw + 0.1f));
    cv::copyMakeBorder(outImage, outImage, top, bottom, left, right, cv::BORDER_CONSTANT, color);

void utils::scaleCoords(cv::Rect &coords,
                        cv::Mat &mask,
                        const float maskThreshold,
                        const cv::Size &imageShape,
                        const cv::Size &imageOriginalShape)
    float gain = std::min((float)imageShape.height / (float)imageOriginalShape.height,
                          (float)imageShape.width / (float)imageOriginalShape.width);//计算缩放比例

    int pad[2] = {(int)(((float)imageShape.width - (float)imageOriginalShape.width * gain) / 2.0f),
                  (int)(((float)imageShape.height - (float)imageOriginalShape.height * gain) / 2.0f)};//计算填充边距 

    coords.x = (int)std::round(((float)(coords.x - pad[0]) / gain));//还原到原始图像坐标
    coords.x = std::max(0, coords.x);
    coords.y = (int)std::round(((float)(coords.y - pad[1]) / gain));
    coords.y = std::max(0, coords.y);

    coords.width = (int)std::round(((float)coords.width / gain));
    coords.width = std::min(coords.width, imageOriginalShape.width - coords.x);
    coords.height = (int)std::round(((float)coords.height / gain));
    coords.height = std::min(coords.height, imageOriginalShape.height - coords.y);
    mask = mask(cv::Rect(pad[0], pad[1], imageShape.width - 2 * pad[0], imageShape.height - 2 * pad[1]));//裁剪掩码并去掉边缘填充

    cv::resize(mask, mask, imageOriginalShape, cv::INTER_LINEAR);

    mask = mask(coords) > maskThreshold;
template <typename T>
T utils::clip(const T &n, const T &lower, const T &upper)
    return std::max(lower, std::min(n, upper));

#include "yolov8Predictor.h"

YOLOPredictor::YOLOPredictor(const std::string &modelPath,
                             const bool &isGPU,
                             float confThreshold,
                             float iouThreshold,
                             float maskThreshold)
    this->confThreshold = confThreshold;
    this->iouThreshold = iouThreshold;
    this->maskThreshold = maskThreshold;
    //初始化一个 ONNX 运行时环境 env,并设置日志级别为警告。
    env = Ort::Env(OrtLoggingLevel::ORT_LOGGING_LEVEL_WARNING, "YOLOV8");
    sessionOptions = Ort::SessionOptions();
    //获取当前 ONNX 运行时支持的执行提供程序,并检查是否支持 CUDA 执行提供程序。
    std::vector<std::string> availableProviders = Ort::GetAvailableProviders();

    std::cout << "--------------------" << std::endl;
    for (int i = 0; i < availableProviders.size(); ++i)
        std::cout << availableProviders.at(i) << std::endl;

    auto cudaAvailable = std::find(availableProviders.begin(), availableProviders.end(), "CUDAExecutionProvider");
    //在指定的 范围 内搜索 第一个等于给定值的元素,并返回一个指向该元素的迭代器。
    //如果未找到匹配的元素,std::find 返回指向范围末尾的迭代器(即 end())。
    OrtCUDAProviderOptions cudaOption;
    //OrtCUDAProviderOptions 是 ONNX Runtime 提供的一个结构体,用于配置 CUDA GPU 推理选项,当在 GPU 上使用 ONNX Runtime 时,需要通过该结构体指定 CUDA 相关参数。

    //根据是否使用 GPU 和 CUDA 提供程序是否可用,选择相应的执行提供程序,并输出相应的推断设备信息。
    if (isGPU && (cudaAvailable == availableProviders.end()))//end()指向 容器末尾的下一个位置 的迭代器
        std::cout << "GPU is not supported by your ONNXRuntime build. Fallback to CPU." << std::endl;
        std::cout << "Inference device: CPU" << std::endl;
    else if (isGPU && (cudaAvailable != availableProviders.end()))
        std::cout << "Inference device: GPU" << std::endl;
        std::cout << "Inference device: CPU" << std::endl;

#ifdef _WIN32
    //Windows 系统中的文件路径通常使用 宽字符(Unicode) 编码(wchar_t)
    std::wstring w_modelPath = utils::charToWstring(modelPath.c_str());
    //c_str()将 std::string 或 std::wstring 转换为以 '\0' 结尾的 C 风格字符串,方便与需要 const char* 或 const wchar_t* 类型的 C 风格函数或库(如 OpenCV、ONNX Runtime 等)兼容。
    //OpenCV:cv::imread() 接收 const char*。
    //ONNX Runtime(Windows 平台):Ort::Session 需要 const wchar_t* 。
    session = Ort::Session(env, w_modelPath.c_str(), sessionOptions);
    //创建一个 Ort::Session 会话,通过会话来执行推理任务。
    session = Ort::Session(env, modelPath.c_str(), sessionOptions);
    const size_t num_input_nodes = session.GetInputCount();   //==1
    const size_t num_output_nodes = session.GetOutputCount(); //==1,2
    if (num_output_nodes > 1)
        this->hasMask = true;
        std::cout << "Instance Segmentation" << std::endl;
        std::cout << "Object Detection" << std::endl;

    Ort::AllocatorWithDefaultOptions allocator;
    //Ort::AllocatorWithDefaultOptions 是 ONNX Runtime 提供的一个默认内存分配器类,用于管理内存资源,特别是在获取模型输入/输出的元数据(如名称、形状)时非常有用

    for (int i = 0; i < num_input_nodes; i++)
        auto input_name = session.GetInputNameAllocated(i, allocator);
        //返回的是一个 Ort::AllocatedStringPtr 对象,而不是简单的 char*
        //GetInputName返回的字符串指针是一个 C 风格字符串(char*)
        this->inputNames.push_back(input_name.get());//get 返回指向的原始字符串指针,也就是 const char* 类型

        Ort::TypeInfo inputTypeInfo = session.GetInputTypeInfo(i);
        std::vector<int64_t> inputTensorShape = inputTypeInfo.GetTensorTypeAndShapeInfo().GetShape();
        this->isDynamicInputShape = false;
        // checking if width and height are dynamic
        if (inputTensorShape[2] == -1 && inputTensorShape[3] == -1)
            std::cout << "Dynamic input shape" << std::endl;
            this->isDynamicInputShape = true;
    for (int i = 0; i < num_output_nodes; i++)
        auto output_name = session.GetOutputNameAllocated(i, allocator);

        Ort::TypeInfo outputTypeInfo = session.GetOutputTypeInfo(i);
        std::vector<int64_t> outputTensorShape = outputTypeInfo.GetTensorTypeAndShapeInfo().GetShape();
        if (i == 0)
            if (!this->hasMask)
                classNums = outputTensorShape[1] - 4;
                classNums = outputTensorShape[1] - 4 - 32;

void YOLOPredictor::getBestClassInfo(std::vector<float>::iterator it,
                                     float &bestConf,
                                     int &bestClassId,
                                     const int _classNums)
    // first 4 element are box
    bestClassId = 4;
    bestConf = 0;

    for (int i = 4; i < _classNums + 4; i++)
        if (it[i] > bestConf)
            bestConf = it[i];
            bestClassId = i - 4;
cv::Mat YOLOPredictor::getMask(const cv::Mat &maskProposals,
                               const cv::Mat &maskProtos)
    cv::Mat protos = maskProtos.reshape(0, {(int)this->outputShapes[1][1], (int)this->outputShapes[1][2] * (int)this->outputShapes[1][3]});

    cv::Mat matmul_res = (maskProposals * protos).t();
    cv::Mat masks = matmul_res.reshape(1, {(int)this->outputShapes[1][2], (int)this->outputShapes[1][3]});
    cv::Mat dest;

    // sigmoid
    cv::exp(-masks, dest);
    dest = 1.0 / (1.0 + dest);
    cv::resize(dest, dest, cv::Size((int)this->inputShapes[0][2], (int)this->inputShapes[0][3]), cv::INTER_LINEAR);
    return dest;

void YOLOPredictor::preprocessing(cv::Mat &image, float *&blob, std::vector<int64_t> &inputTensorShape)
    cv::Mat resizedImage, floatImage;
    cv::cvtColor(image, resizedImage, cv::COLOR_BGR2RGB);//BGR->RGB
    utils::letterbox(resizedImage, resizedImage, cv::Size((int)this->inputShapes[0][2], (int)this->inputShapes[0][3]),
                     cv::Scalar(114, 114, 114), this->isDynamicInputShape,
                     false, true, 32);
    //用于调整图像的尺寸,使其适应网络输入要求的尺寸,同时保持原始图像的长宽比。它会在图像周围添加填充,填充的颜色由 cv::Scalar(114, 114, 114) 指定,这通常是 YOLO 等模型的默认填充色。

    inputTensorShape[2] = resizedImage.rows;
    inputTensorShape[3] = resizedImage.cols;

    resizedImage.convertTo(floatImage, CV_32FC3, 1 / 255.0);//将每个像素的值归一化到 [0, 1] 之间
    blob = new float[floatImage.cols * floatImage.rows * floatImage.channels()];//为图像数据分配内存,大小为图像宽度 × 高度 × 通道数
    //每个像素的数据将存储为一个 float 类型的值
    cv::Size floatImageSize{floatImage.cols, floatImage.rows};

    // hwc -> chw
    std::vector<cv::Mat> chw(floatImage.channels());
    for (int i = 0; i < floatImage.channels(); ++i)
        chw[i] = cv::Mat(floatImageSize, CV_32FC1, blob + i * floatImageSize.width * floatImageSize.height);
        //这里的 cv::Mat 对象并不直接复制数据,而是创建了一个指向 blob 中特定位置的“视图”。这个“视图”指向的是 blob 中为每个通道分配的内存区域。
        //计算出每个通道数据在 blob 数组中的起始位置
    cv::split(floatImage, chw);//将图像数据按通道拆分并将其存储在 blob 指向的内存中

std::vector<Yolov8Result> YOLOPredictor::postprocessing(const cv::Size &resizedImageShape,
                                                        const cv::Size &originalImageShape,
                                                        std::vector<Ort::Value> &outputTensors)

    // for box
    std::vector<cv::Rect> boxes;
    std::vector<float> confs;
    std::vector<int> classIds;

    float *boxOutput = outputTensors[0].GetTensorMutableData<float>();//获取指向第一个输出张量数据的指针
    //[1,4+n,8400]=>[1,8400,4+n] or [1,4+n+32,8400]=>[1,8400,4+n+32]
    cv::Mat output0 = cv::Mat(cv::Size((int)this->outputShapes[0][2], (int)this->outputShapes[0][1]), CV_32F, boxOutput).t();//chw->hwc
    float *output0ptr = (float *)output0.data;
    int rows = (int)this->outputShapes[0][2];
    int cols = (int)this->outputShapes[0][1];
    // std::cout << rows << cols << std::endl;
    // if hasMask
    std::vector<std::vector<float>> picked_proposals;
    cv::Mat mask_protos;

    for (int i = 0; i < rows; i++)
        std::vector<float> it(output0ptr + i * cols, output0ptr + (i + 1) * cols);//提取每行数据
        float confidence;
        int classId;
        this->getBestClassInfo(it.begin(), confidence, classId, classNums);//提取最高置信度的类别和对应的分数

        if (confidence > this->confThreshold)//过滤低置信度目标
            if (this->hasMask)
                std::vector<float> temp(it.begin() + 4 + classNums, it.end());//跳过前面 4 个边界框坐标和 classNums 个类别置信度,定位到掩码数据部分的起始位置。
            //将检测框的坐标转换为左上角格式 (left, top, width, height),存储到 boxes
            int centerX = (int)(it[0]);
            int centerY = (int)(it[1]);
            int width = (int)(it[2]);
            int height = (int)(it[3]);
            int left = centerX - width / 2;
            int top = centerY - height / 2;
            boxes.emplace_back(left, top, width, height);

    std::vector<int> indices;//保存了保留的检测框索引
    cv::dnn::NMSBoxes(boxes, confs, this->confThreshold, this->iouThreshold, indices);

    if (this->hasMask)
        float *maskOutput = outputTensors[1].GetTensorMutableData<float>();
        std::vector<int> mask_protos_shape = {1, (int)this->outputShapes[1][1], (int)this->outputShapes[1][2], (int)this->outputShapes[1][3]};
        mask_protos = cv::Mat(mask_protos_shape, CV_32F, maskOutput);

    std::vector<Yolov8Result> results;
    for (int idx : indices)
        Yolov8Result res;
        res.box = cv::Rect(boxes[idx]);
        if (this->hasMask)
            res.boxMask = this->getMask(cv::Mat(picked_proposals[idx]).t(), mask_protos);//如果存在掩码,调用 getMask 生成实例分割掩码
            res.boxMask = cv::Mat::zeros((int)this->inputShapes[0][2], (int)this->inputShapes[0][3], CV_8U);

        utils::scaleCoords(res.box, res.boxMask, this->maskThreshold, resizedImageShape, originalImageShape);//将检测框和掩码从网络输入大小映射回原图坐标系
        res.conf = confs[idx];
        res.classId = classIds[idx];

    return results;

std::vector<Yolov8Result> YOLOPredictor::predict(cv::Mat &image)
    float *blob = nullptr;//用于存储图像预处理后的数据
    std::vector<int64_t> inputTensorShape{1, 3, -1, -1};//-1, -1 表示动态输入的高度和宽度(在运行时由实际图像尺寸决定)
    this->preprocessing(image, blob, inputTensorShape);//预处理

    size_t inputTensorSize = utils::vectorProduct(inputTensorShape);//计算输入 Tensor 中的 元素个数

    std::vector<float> inputTensorValues(blob, blob + inputTensorSize);//将预处理后的数据拷贝到向量中,blob首地址

    std::vector<Ort::Value> inputTensors;

    Ort::MemoryInfo memoryInfo = Ort::MemoryInfo::CreateCpu(
        OrtAllocatorType::OrtArenaAllocator, OrtMemType::OrtMemTypeDefault);//表示 Tensor 数据存储在 CPU 内存中。

        memoryInfo, inputTensorValues.data(), inputTensorSize,
        inputTensorShape.data(), inputTensorShape.size()));//将数据创建为一个 ONNX Tensor
    //memoryInfo:内存信息,表示数据存储在 CPU 上。
    //inputTensorValues.data():指向 Tensor 数据的起始位置。
    //inputTensorSize:Tensor 数据的元素个数。
    //inputTensorShape.data():Tensor 形状的指针。
    //inputTensorShape.size():Tensor 形状的维度数量。
    std::vector<Ort::Value> outputTensors = this->session.Run(Ort::RunOptions{nullptr},
    //Ort::RunOptions{nullptr}:RunOptions 是 ONNX Runtime 执行配置对象,这里传入 nullptr 使用默认配置。
    //this->inputNames.data():输入 Tensor 名称数组的指针,指定模型输入的名称。
    //inputTensors.data():输入 Tensor 数据的指针,指定输入数据。
    //1:表示输入 Tensor 数量。
    //this->outputNames.data():输出 Tensor 名称数组的指针,指定需要输出的节点名称。
    //this->outputNames.size():输出 Tensor 数量。
    //Run 返回一个包含 输出 Tensor 的向量 std::vector,每个 Ort::Value 包含模型的一个输出。

    cv::Size resizedShape = cv::Size((int)inputTensorShape[3], (int)inputTensorShape[2]);//获取模型输入的尺寸信息
    std::vector<Yolov8Result> result = this->postprocessing(resizedShape,

    delete[] blob;

    return result;

3.3 推理测试



