OpenVINO™工具包公共模型概述
OpenVINO™工具包提供了一组公共模型,您可以将其用于学习和演示目的,或者用于开发深度学习软件。
本文引用地址://www.kangnampoly.com/article/202106/426375.htm最新版本可在Github上的回购中找到。
您可以下载模型并使用OpenVINO™模型下载器和其他自动化工具将它们转换为推理引擎格式(*.xml+*.bin)。
分类
分割
语义分割是目标检测问题的延伸。
语义分割模型不返回边界框,而是返回输入图像的“绘制”版本,其中每个像素的“颜色”表示某个类别。
这些网络比各自的目标检测网络大得多,但它们提供了更好的(像素级)目标定位,并且它们可以检测到形状复杂的区域。
语义分割
实例分割
实例分割是目标检测和语义分割问题的延伸。与预测每个对象实例周围的边界框不同,实例分割模型为所有实例输出像素级掩码。
3D语义分割
目标检测
几个检测模型可以用来检测一组最流行的对象——例如,人脸、人、车辆。大多数网络都基于固态硬盘,并提供合理的精度/性能权衡。
面部识别
人体姿态估计
人体姿态估计任务是为输入图像或视频中的每个人预测一个姿态:身体骨架,它由关键点和它们之间的联系组成。关键点是身体关节,即耳朵、眼睛、鼻子、肩膀、膝盖等。这种方法有两大类:自上而下和自下而上。首先在给定的帧中检测人,裁剪或重新缩放检测,然后为每个检测运行姿态估计网络。这些方法非常准确。第二个查找给定帧中的所有关键点,然后按个人实例对它们进行分组,这样比以前更快,因为网络只运行一次。
单目深度估计
单目深度估计的任务是基于单一输入图像预测深度(或逆深度)地图。由于这个任务在一般情况下包含一些模糊性,所以得到的深度图通常只定义一个未知的比例因子。
图像修复
图像修复的任务是估计合适的像素信息来填充图像中的空洞。
风格转移
风格转移任务是将一个图像的风格转移到另一个图像。
动作识别
动作识别的任务是预测正在短视频剪辑上执行的动作(通过堆叠来自输入视频的采样帧形成的张量)。
彩色化
彩色化任务是从灰度图像中预测场景的颜色。
声音分类
声音分类的任务是预测音频片段中有哪些声音。
语音识别
语音识别的任务是识别口语并将其翻译成文本。
图像翻译
图像翻译的任务是基于样本生成输出。
位置识别
地点识别的任务是快速准确地识别给定查询照片的位置。
使(模糊的图像)变清晰
图像去模糊的任务。
评论