语义结构化图像压缩技术不仅在实验室中表现出色,在实际应用中也展现出广阔前景。通过大量测试,我们发现这种技术在不同应用场景下都能提供显著优势,从提高普通用户的浏览体验到支持高级人工智能任务。 在普通图像查看方面,当用户只对图像中特定内容感兴趣时,传统压缩方法需要传输和解码整个图像比特流,而不考虑用户需求和图像内容。虽然SSIC通过基于边界框的分割部分解决了这个问题,但其缺乏灵活性,当将重叠物体合并为更大的边界框时可能会引入额外的无关干扰。此外,SSIC通过直接在潜在变量空间中分割基于ConvNets的变换后对应位置来生成每个物体的比特流,这会导致选择性重建时丢失依赖关系,从而导致区域边界模糊和扭曲。 而基于组掩码分区和组独立变换的方法更有效地解耦图像以生成语义结构化比特流,同时确保选择性重建后不会引入扭曲或模糊。这导致比特率大幅节省和更好的视觉体验。一个典型的例子是,当用户只想查看照片中的人物时,我们的方法可以只传输与人物相关的比特流,而不是整个图像,这既节省了带宽,又提供了清晰的视觉效果。 在下游智能任务支持方面,选择性传输和解码基于相对语义先验知识的语义结构化比特流可以显著节省比特率。传统设计用于压缩矩形图像的编解码器需要传输和解码整个比特流。下游模型然后在完全重建的图像上执行智能分析,这会浪费比特率。与人类图像重建类似,SSIC可以通过选择性传输来节省比特率。然而,基于边界框的分区可能不是比特率节省的最佳方案,结果模糊和扭曲的区域边界和无关内容会进一步妨碍下游智能分析。我们的方法可以更有效地生成语义结构化比特流,并通过特定需求支持各种下游任务,既保证准确性又保证编码效率。 值得注意的是,语义结构化比特流的生成和使用非常灵活,可以基于不同的语义分区标准进行定制。例如,根据特定需求,可以基于对象检测或实例分割来生成和使用语义结构化比特流。预分析方法不限于对象检测和实例分割,还可以包括显著性检测、语义分割、全景分割等,甚至是人工标注。 在特定兴趣的部分图像重建场景中,与其他编解码器相比,我们的模型取得了显著改进。具体来说,语义结构化比特流使我们的模型和SSIC能够避免传输和解码对应于整个图像的比特流,而ELIC则需要。此外,我们模型的灵活块级组掩码和组独立变换从语义层面在空间上解耦潜变量,与SSIC相比,产生更锐利、更逼真的边界。此外,在重叠区域的情况下,我们的模型可以通过将它们分组为不规则组而不是用更大的边界框替换它们来显著节省比特率,这会引入更多失真。 在下游任务支持方面,我们的模型在实例分割和姿态估计方面表现出色。在实例分割方面,与其他方法相比,我们的模型在低比特率(<;0.6bpp)下实现了显著提升的性能,这可以归因于我们方法中RoI边界的忠实重建。值得注意的是,我们方法在姿态估计上的卓越性能得益于我们模型保留细节和边界的能力,这对于准确定位人体关键点至关重要。此外,人体物体在图像中是少数且通常稀疏分布,与SSIC相比,我们的方法可以通过避免传输与包含所有重叠物体的矩形区域对应的潜在变量来显著减少比特率。 我们的方法还可以应用于比特流加密,使用语义先验启用选择性甚至分层加密,基于用户的安全级别。在某些情况下,选择性加密的语义结构化比特流可以允许安全传输和存储敏感信息,同时最小化对视觉质量和下游分析的影响。
语义结构化图像压缩技术不仅在实验室中表现出色,在实际应用中也展现出广阔前景。通过
酸酸甜甜小苏
2025-06-09 06:01:05
0
阅读:1