首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

Google用更少标签生成图像,还提出一个用于训练评估GAN的库

  • 24-03-05 04:42
  • 3241
  • 6233
blog.csdn.net

640?wx_fmt=jpeg

参加 2019 Python开发者日,请扫码咨询 ↑↑↑


译者 | 刘畅

责编 | 琥珀

出品 | AI科技大本营(ID:rgznai100)


生成对抗网络(GAN)是属于一种强有力的深度生成模型。GAN 的主要思想是训练两个神经网络:一个是学习如何合成数据(如图像)的生成器( generator),另一个是学习如何区分真实数据与生成器合成数据的判别器(discriminator)。这类方法已经成功应用于高保真自然图像合成、提升模型图像压缩、数据增强等方面。


640?wx_fmt=gif

图注:在ImageNet上训练时,生成样本的演变过程。 生成网络是根据类别来生成的(如“灰猫头鹰”或“金毛猎犬”)。


对于自然图像合成,条件GAN(Conditional Generative Adversarial Nets)能实现最好的结果。与无条件 GAN 不同,条件 GAN 在训练期间会使用标签(如汽车、狗等)。 虽然这使得该任务更容易并且有明显的效果提升,但是这种方法需要大量的标记数据,因此在实践中很少可用。


在《使用更少标签生成高保真图像》(High-Fidelity Image Generation With Fewer Labels)这篇论文中,研究人员提出了一种新方法来减少条件GAN训练时所需的标记数据量。 结合 GAN 的最新进展,他们将高保真自然图像合成技术与最先进的技术相结合,使所需的标签数量减少了 10 倍。 


论文传送门:https://arxiv.org/abs/1903.02271


基于这项研究,研究人员还在 Compare GAN 库中发布了一个重大更新,其中 Compare GAN 库是一个包含训练和评估 GAN 所有组件的工具库。


使用半监督和自监督进行提升


在条件 GAN 中,生成器和判别器通常都是以类标签为条件。在这项工作中,我们提出用推断的标签去替代手工注释的标签。 为了使大型数据集中大多数未标记数据被推断出来的标签质量更高,我们采取两步法:


首先,我们仅使用数据集未标记的部分来学习特征表示。为了学习特征表示,我们将最近的方法都用在了自监督上,也就是当深度卷积神经网络的任务是预测旋转角度时,我们会对未标记图像的进行随机旋转。背后的想法是模型需要能够识别主要的目标及形状才能在此任务中取得成功。



640?wx_fmt=png

图注:这张未标记图像被随机旋转,而网络的任务则是预测旋转角度。成功的模型需要捕获具有语义的图像特征,而这样的特征也可以将其用于其他视觉任务。


然后,我们将训练好的网络一个中间层的激活模式视为输入的新特征表示,并使用原始数据集的标记部分去训练一个分类器来识别该输入的标签。由于网络经过预训练可以从数据(在旋转预测任务上)中提取出具有语义信息的特征,因此训练分类器比从头开始训练整个网络会更快。 最后,我们使用此分类来器标记没有标签的数据。


为了进一步提高模型质量和训练的稳定性,我们会采用之前介绍的辅助损失以加强判别器网络学习有意义的特征表示,这些特征表示在训练期间不会被遗忘。这两项改进与大规模训练相结合,为以 FID 为度量方式的 ImageNet 综合性任务带来了最先进的条件 GAN。


论文传送门:https://arxiv.org/abs/1811.11212


640?wx_fmt=png

图注:给定一个潜在向量,生成器网络就能产生一张图像。 在每行中,最左侧和最右侧图像编码之间的线性插值导致了图像空间中的语义插值。


Compare GAN:一个用于训练和评估GAN的库


对 GAN 的前沿研究在很大程度上依赖于经过精心设计和良好测试的代码库,因为即使复现其他人的结果和技术也需要花费巨大努力。为了促进开放科学并让研究者能从最近的新方法中获益,我们正在发布 Compare GAN 库的重大更新。该库包括现有 GAN 中常用的损失函数,正则化和规范化模式,神经架构和量化指标等等,现在支持:


  • 在 GPU 和 TPU 上训练。

  • 通过 Gin 进行轻量级配置。

  • 通过 TensorFlow 数据集库提供大量数据集。


结论


鉴于标记和未标记数据源之间的差距越来越大,能够仅从部分标记的数据中学习变得越来越重要。我们已经证明,自监督和半监督之间简单而有力的结合可以帮助缩小 GAN 在数据源上的差距。我们认为,自监督是一个强有力的想法,而且应该可以用于其他生成模型的任务。


相关链接:

https://ai.googleblog.com/2019/03/reducing-need-for-labeled-data-in.html?m=1


(本文为 AI科技大本营翻译文章,转载请微信联系 1092722531)


敲黑板划重点!7 折优惠限时抢购中,3 月 31 日前可享受优惠价 499 元,欢迎点击阅读原文报名参加。更多详细信息请咨询13581782348(微信同号)。

640?wx_fmt=jpeg

你也可以点击阅读原文,查看大会详情。

《VR 360°全景视频开发》专栏

将带你深入探索从全景视频制作到Unity眼镜端应用开发的全流程技术。专栏内容涵盖安卓原生VR播放器开发、Unity VR视频渲染与手势交互、360°全景视频制作与优化,以及高分辨率视频性能优化等实战技巧。


📝 希望通过这个专栏,帮助更多朋友进入VR 360°全景视频的世界!


Part 1 全景视频拍摄与制作基础

360°全景视频作为VR领域的重要组成部分,广泛应用于影视娱乐、教育培训、文化旅游、地产展示、医疗康复等多个行业。

本章主要梳理360°全景视频的理论基础、核心技术,以及典型应用场景,帮助大家从概念理解到应用场景有一个系统认知。

  • 第一节|全景视频概述与应用场景(2025年3月23日12:00更新)

  • 第二节|全景视频拍摄设备选型与使用技巧(2025年3月30日12:00更新)

第三节|全景视频后期拼接与处理流程

全景视频的后期处理是确保最终画面质量的关键环节。从原始素材的拼接(stitching)到色彩校正、降噪、视差优化,再到最终导出,整个流程需要兼顾技术与艺术性,以确保沉浸式体验的完整性。

1. 全景视频拼接(Stitching)

1.1 拼接软件选择

不同品牌的全景相机通常提供官方拼接软件,同时也有专业第三方拼接工具可供选择。

软件适用相机主要特点
GoPro PlayerGoPro MAX官方支持,操作简单,自动拼接
Insta360 StudioInsta360 系列AI优化拼接,自动防抖
Kandao StudioKandao Obsidian支持高分辨率拼接,精细调整
Mistika VR多种相机专业级拼接软件,适合电影级制作
PTGui / Autopano Video多种相机手动拼接,适用于复杂场景
  • GoProPlayer下载地址
    在这里插入图片描述

  • Insta360 STUDIO 下载地址
    在这里插入图片描述

  • KANDAO 下载地址
    在这里插入图片描述

  • mistika vr 下载链接
    在这里插入图片描述

1.2 拼接流程

  1. 导入原始素材:通常是多个鱼眼镜头画面或双镜头合成文件。
  2. 设定拼接参数:选择合适的拼接模板或手动调整视差。
  3. 优化边缘融合:调整镜头畸变参数,确保拼接区域无明显割裂。
  4. 导出高质量全景视频:建议采用无损或高码率格式,便于后续处理。

2. 颜色校正与降噪

2.1 颜色校正(Color Grading)

颜色校正是提升画面质量的重要环节,需调整以下参数:

  • 白平衡(White Balance):确保不同场景色温一致。
  • 对比度 & 饱和度:增强画面层次感,使色彩更饱满。
  • 动态范围(HDR)优化:增加暗部细节,避免过曝。
  • LUT 预设应用:使用 DaVinci Resolve、Adobe Premiere Pro 提供的 LUT(查找表)增强色彩风格。

2.2 降噪处理(Noise Reduction)

在低光环境下拍摄的全景视频可能存在噪点,推荐使用以下方法降噪:

  • Neat Video 插件:专业降噪工具,可自定义参数优化细节。
  • DaVinci Resolve 降噪功能:基于 AI 算法减少噪点。
  • 时域 & 空域降噪(Temporal & Spatial Denoise):平衡画质和清晰度。

3. 视差优化与缝合修正

3.1 视差问题产生的原因

  • 拍摄距离过近:前景物体与相机镜头距离过小,导致拼接错误。
  • 多镜头角度偏差:镜头重叠区域未能精准对齐。
  • 动态物体干扰:运动物体在不同镜头间存在时间差。

3.2 解决方案

  • 优化拍摄角度:尽量使被摄主体远离相机,减少视差影响。
  • 手动调整拼接点:在拼接软件中微调关键点,修正视差问题。
  • 后期修补:使用 After Effects 进行面部修正、背景修补等。

4. 导出与格式优化

4.1 编码格式选择

根据最终用途选择适当的视频编码格式:

编码格式适用场景主要特点
H.265 (HEVC)在线播放高压缩比,质量较好
ProRes专业剪辑适合后期调色,文件较大
CineFormVR 影视制作高动态范围支持,适用于沉浸式视频

4.2 压缩优化

  • FFmpeg:利用 H.265 进行高效压缩,减少文件体积。
  • VR 兼容性优化:确保导出时保留 360° 元数据,避免播放器识别错误。
  • 码率调整:建议 8K 视频码率 >100Mbps,4K 视频码率 >50Mbps。

结语

全景视频的后期处理是一个综合性流程,从拼接到色彩调整、降噪、视差优化,再到导出与兼容性测试,每个环节都决定了最终的视觉体验。合理使用专业工具,并结合优化策略,可显著提升全景视频的沉浸感和质量,使其更适用于 VR 设备播放和商业应用。


本专栏旨在系统地分享VR 360°全景视频的开发全流程。包括但不限于全景视频的拍摄与制作、安卓原生VR播放器的开发、以及如何在VR眼镜上实现全景视频播放器。
✅ 如果你对VR开发感兴趣,欢迎关注本专栏!
💬 有任何问题或想了解的内容,欢迎留言讨论,一起探索XR技术的更多可能!


地址:《VR 360°全景视频开发》

👉 更新详情

  • 【专栏预告】《VR 360°全景视频开发:从GoPro到Unity VR眼镜应用实战》

【Part 1全景视频拍摄与制作基础】

  • 第一节|全景视频概述与应用场景(2025年3月23日12:00更新)

  • 第二节|全景视频拍摄设备选型与使用技巧(2025年3月30日12:00更新)

  • 第三节|全景视频后期拼接与处理流程(2025年4月6日12:00更新)


QQ交流
QQ名片
注:本文转载自blog.csdn.net的AI科技大本营的文章"https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/88802373"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

101
推荐
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2025 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top