开yun体育官网入口登录app EMS '23 | LiveAE:基于注意力和边缘辅助的实时360°视频流媒体视口预测
资料来源:EMS '23标题:Liveae:基于注意的和边缘辅助的观看港预测现场360°视频流媒体作者:Zipeng Pan,Yuan Zhang,Tao Lin,Jinyao yan Yan Yan Yan文本链接:li yuhang:li yuhang
介绍
视口预测在真实的-Time 360°视频流媒体中起着至关重要的作用。它确定应提前获得哪些高质量瓷砖,从而影响用户体验。
现有有关VP问题的研究工作是在360°视频点广播场景中。这些方法取决于多个用户的历史头部运动轨迹,也就是说,假设用户在视频框架中通常具有相同的ROI。但是,这些方法不适用于真实的-Time 360°视频,因为实时广播的真实时间性质是通常无法获得上述多用户轨迹信息。
在真实时间360°视频的领域中,当前VP问题的研究趋势是整合两种类型的特征 - 视觉特征和头部运动轨迹,以实现更准确,更稳定的预测。但是,这种方法面临着准确性和计算复杂性之间平衡的挑战。本文提出了一种基于注意力和边缘辅助的新型实时 - 时间360°视频流场预测框架。使用名为Vision Transformer(VIT)的预训练的视频编码器进行一般视觉特征提取,并使用交叉注意机制跟随用户特定的兴趣跟踪。为了解决计算复杂性问题,上述内容 - 计算负载已在边缘服务器上卸载,并且在客户端上保留了与轨迹相关功能相关的功能。
主要贡献摘要如下:
方法
图1 Liveae系统体系结构
系统体系结构
图1显示了Liveae系统框架。 VP进程是在边缘服务器和客户端之间共同处理的。在边缘服务器端,视频框架示例来自最近的段和当前段(预先传输到边缘服务器)。为了获得用户的个性化兴趣,客户来自客户端的真实时间反馈的轨迹数据用于拦截过去框架的FOV区域。然后输入当前的帧并截取过去的框架中的前训练视频编码器,以提取大多数用户和当前用户的兴趣的一般查看功能。随后通过基于交叉注意的模块增强模块以获得适合当前用户的ROI功能来处理这两组特征。在客户端上,轨迹数据由基于轻质变压器的轨迹编码器处理,以提取时间运动的特征。最后,Edge服务器提供的机芯功能和ROI功能将输入到一个组合的预测因子中,并作为预测结果生成图块概率分布矩阵。
图2交叉注意变压器
预训练的视频编码器
本文使用VIT(VisionTransFormer)作为预训练的视频编码器,以获取360°视频的视觉表示。它是应用变压器模型的神经网络结构。它显示了各种计算机视觉任务的良好结果,例如图像分类,对象检测和图像分割。
尽管现有的视觉模型在识别一般用户的ROI方面表现良好,但这些领域可能无法完全代表当前用户的偏好。为了克服这一缺点,本文提出了图2中显示的视频编码器,并输入两种类型的帧序列以捕获用户兴趣特征。首先,使用统一抽样从当前段选择帧的子集。一方面,它可以减少延迟和邻居框架之间的相似性。另一方面,从过去段中提取最终框架将有助于消除过时的用户兴趣并提高预测的准确性。通过结合这些策略,我们可以获得通用和个人用户偏好,以实现更准确的观点预测。
应当注意,VIT将视频框架分为图像块而不重叠,并使用变压器模型捕获这些块之间的相互作用以获得最终表示。为了增强其在特定任务中的适用性,本文保留了与每个块相对应的功能,从而基于符号作为粒径生成特征图。此方法有效地保留了每个块的空间位置信息,这有助于创建空间比对的概率分布矩阵。在功能提取过程之后,视频编码器生成了两组图像功能:一般的偏好和个体偏好,每组功能的形状是
××_
,在
指示张量的尺寸。此设计选项使我们能够在级别捕获详细信息,并使用丰富的空间特征来进行准确的观点预测。
提高兴趣
如图1所示,在获得所选过去框架和当前帧的嵌入式向量后,我们使用交叉注意变压器集成这些嵌入式向量以获得增强用户兴趣的图像特征。这是一个改进的变压器模型,结合了跨注意机制来处理多个输入序列。通过有效地对它们之间的关联进行建模,以更好地捕获不同序列之间的语义关系。
图2给出了感兴趣的结构增强模块。其中,注意力的重量是通过计算查询矩阵和键矩阵的点积累来确定的,然后将所获得的注意力施加到值矩阵上。定义为:
注意(q,k,v)= softmax(\ frac {{qk}}}} {\ sqrt {d_k}})v \ qq(1)
在此方法中,从过去的框架提取中的嵌入式向量投影在查询矩阵上,而键矩阵和值矩阵包括当前帧中的功能。该方法使模型能够在块级别找到钥匙值,从而使对用户更感兴趣的特定块可以分配更高的注意力。这样,ROI(感兴趣的区域)功能的大小为
×_×_
,可以表示为
z_h = \ {z_1,\ dots,z_p \}
本质
图3交叉注意机制的视觉呈现
图3显示了交叉注意机制的示例。图3(a)显示了标有绿色框的封面图像区域。图3(b)代表一个完整的电流框架,图3(c)显示了注意的视觉结果。明亮的区域表明该模型会分配更多的注意力。值得注意的是,该模型不仅可以关注代表用户特定兴趣的查询区域,而且还可以关注捕获一般利益的其他潜在领域。如图3(c)的右侧的播放器所示,注意力适当分配给该区域。
轨迹编码器
本文使用标准变压器块从过去几秒钟开始提取用户的运动特征来观看历史。为了表示用户的头方向,使用相对坐标,它由1×2向量和轴表示。为了确保不同传感器频率的兼容性,每秒采样时印章以形成形状
××2
输入功能。然后使用线性层嵌入此功能以获得形状
××d_m
输入嵌入。考虑到计算负载,单层宽度的使用为
并具有8种注意力头的模型,以编码这些功能以获得形状
_×1
运动特征向量
本质
联合预测设备
ROI功能是提取的
z_h = \ {z_1,\ dots,z_p \}
体育特征
之后,为了处理两种不同模式的输入,本文使用类型编码的变压器作为融合网络。首先代表两个特征
_ℎ
和
连接。这些连接的功能
可以表示为
_ = \ {_,_ 1开yun体育app官方下载入口,\ dots,_ \}
作为融合网络的输入,请促进视频和轨迹信息之间的多模式相互作用。为了获得每个片段的概率矩阵,本文使用三层线性映射层进行解码。整个预测变量的网络体系结构如下所示:
\ hat {p} = fc(transformer(u_i+p+t))\ qq(2)
其中,位置编码是类型编码,其中包含两个不同的嵌入式向量,分别用于视频框架和轨迹。
实施详细信息
本文的实验配置包括将片段的持续时间设置为1秒,并将采样频率设置为5。参考主流HMD设备,FOV尺寸定义为100°。
为了生成标签,每个片段中每个帧的头方向都用于生成每个切片的观看率。为了获得时间的最终训练标签,同一段中所有帧的概率图是平均值。
在培训过程中,本文使用ADAMW优化器来优化参数开yun体育官网入口登录app,并与字符串学习率衰减结合在一起。对于VIT参数,最大学习率设置为1E-7,对于其他部分,最大学习率为1E-5。由于模型的输出概率矩阵,双交叉熵被用作损耗函数。
为了匹配预训练模型的输入大小并适应不同的分辨率视频,本文使用OPENCV将分辨率调整为224×224。为了编码2×3×224×的视频功能224,本文将VIT和32用作补丁的大小。
为了最大程度地减少计算要求,客户端的转换器的层数和序列长度。本文在跟踪编码器和组合预测指标中使用一个和四个转换器块。
因为多头部注意层代表转换器网络的主要计算负载,所以其复杂性是
(^2)
其中,输入序列的长度。该模型意识到客户端的平均序列长度为44,从而生成可接受的计算复杂性为1.2g浮动点操作(FLOPS)。
实验基线和实验设置
为了满足VIT的数据要求,本文从大型开放数据集中选择了107个视频,包括对齐的观看轨迹。培训集包含这些视频的90%,其余10%用作测试集。使用Pytorch在两个设备上实现该模型:一个工作站(配备Intel 10700 CPU和32G RAM RTX3080图形卡)作为边缘服务器,以及个人笔记本电脑(配备AMD R5 5800H CPU和16G RAM)
我们选择了四种基线VP算法进行比较:
为了评估Liveae的性能,我们选择以下广泛指标:准确性,准确性,召回率,F1分数和联合交叉点(IOU)。
acu = \ frac {1} {n} \ sum_ {i = 1}^n(\ hat {p_i} == gt_i)\ quad(3)
其中,瓷砖总数,
\ hat {_i}
表达预测结果,
表达真实的视口。
iou = \ frac {\ hat {p} \ cap p} {\ hat {p} \ cup p} \ qq(4)
在
\ hat {p}
这是每个片段的预测结果,这表明实际瓷砖。
结果
图4性能对比
预测性能
图4显示了预测窗口为2秒时,这五种方法的全面比较结果。 Liveae达到了最高的预测准确性(83.4%)和F1值(0.724),与最佳性能基线相比,F1值增加了12.8%。
由于CNN和LSTM预测结果的决策使用结果,Livedeep取得了最高的召回率。但是,其余三个指标,尤其是准确性,显示出较低的值,表明可能存在带宽的浪费。同时,耀斑保守地使用RR来预测预测的视野附近的瓷砖。这种保守的方法提高了其准确性和准确性,但也导致了最低的召回率,因为很难预测片段中包含的所有瓷砖。我们随后的实验证明,尽管耀斑在短期预测窗口下表现良好,但是在进一步预测时不能保持这一优势。
图5分布
图5显示了IOU的分布。 Liveae通过显着降低了IOU的极端情况的出现,表现出卓越的性能。相比之下,Salnet360和居住的大部分IOU小于0.4,因为它们选择了更多的瓷砖。另外,弗拉尔
图6 F1在不同预测的窗口下值
图6显示了不同预测窗口下的F1分数。在所有情况下,Liveae的F1得分最高。具体而言,与表现最佳的基准方法MFVP相比,Liveae将F1增加6.8%-18.2%。
消融
表1
为了验证Liveae的有效性,本文将Liveae与视觉基准算法和Liveae的两个变体进行了比较。我们使用CNN开yunapp体育官网入口下载手机版,它是由Livedeep的VGG骨干网络,VIT-W/O-CA和另一个变体VIT-W/-CA改编的模型。 VIT-W/O-CA包含在此算法中训练的视觉编码器,而VIT-W/-CA包含具有交叉意见模块的预训练的视觉编码器。将Liveae与基于视觉的方法进行比较,可以显着观察到性能。如表1所示,与CNN相比,与VIT-W/O-CA相比,VIT-W/O-CA的准确性增加了8.1%,而VIT-W/-CA的总准确度为5.1%。基于CA的VIT的VIT预测可以合理化。此外,与VIT-W/-CA相比,Liveae的准确性增加了8.7%。这是因为Liveae结合了用户过去的视觉范围,其注意力更集中在用户以前探索的领域,而不是整个屏幕传播。
处理成本
考虑到360°实时视频的真实时间要求,该算法的计算时间必须小于片段的持续时间,以确保使用平稳的用户体验。为了验证这一点,本文评估了Liveae的计算负载。为了彻底评估算法的可行性,客户模型已在CPU上部署。为了确保准确可靠的结果,使用CPUFREQUTIL工具将CPU频率限制为2.2GHz。结果,跨平台性能测试Geekbench5得分约为1400点。该性能非常接近在同一测试中同一测试中获得的结果。
图7显示了我们模型在测试集上的处理成本。 Liveae仅产生30-40毫秒的处理成本,远低于片段持续时间的1秒。应该注意的是,这里的处理成本是一个完整的预测持续时间。它是Veric Server开销和用户 - 端开销的总和。实验结果证明该模型支持客户端的真实时间流媒体。与RNN模型相比,这可以归因于与RNN模型相比的高平行性以及使用较短的输入序列长度。
客户评论
-
2025-01-30 00:42:42 留言:今天上网不回帖,回帖就回精华帖!http://4ee.yy0.com.cn
-
2025-01-30 00:47:19 留言:视死如归的架势啊!http://www.72auto.com/
-
2025-01-30 00:59:53 留言:这位作者的文笔极其出色,用词精准、贴切,能够形象地传达出他的思想和情感。http://www.726i.com/
-
2025-01-30 01:36:21 留言:楼主你想太多了!https://www.btoko.com/
-
2025-01-30 01:37:43 留言:态度决定一切,不错!http://www.5infos.com/
-
2025-01-30 02:00:36 留言:这么好的帖子,应该加精华!http://d1ej.25ght.bjerba.com
-
2025-01-30 02:08:02 留言:太邪乎了吧?https://www.linewb.com/
-
2025-01-30 02:29:32 留言:好好学习楼主的帖子!http://www.58pam.com/
-
2025-01-30 02:41:25 留言:以后就跟楼主混了!http://www.51ymh.com/
-
2025-01-30 03:19:07 留言:学习雷锋,好好回帖!https://www.btoko.com/
-
2025-01-30 03:24:28 留言:对牛弹琴的人越来越多了!http://jrq9.bjerba.com
-
2025-01-30 03:49:48 留言:很给力!https://www.sougoui.com/
-
2025-01-30 04:14:40 留言:好好学习楼主的帖子!http://www.20g2.com/
-
2025-01-30 05:18:32 留言:看了这么多帖子,第一次看到这么高质量内容!http://k34.25ght.bjerba.com
-
2025-01-30 05:27:18 留言:楼主你想太多了!http://mq104c.bjerba.com
-
2025-01-30 06:01:07 留言:支持一下!http://nnbm5.yy0.com.cn
-
2025-01-30 06:09:17 留言:楼主的头像能辟邪啊!http://pke80.imvk1.com
-
2025-01-30 07:23:31 留言:这么好的帖子,应该加精华!https://www.zaloi.com/
-
2025-01-30 08:25:56 留言:楼主就是我的榜样哦http://www.yiyuc.com/
-
2025-01-30 08:50:49 留言:收藏了,改天让朋友看看!http://kdv8i.yy0.com.cn
-
2025-01-30 08:51:34 留言:好好学习楼主的帖子!http://zpx.25ght.bjerba.com
-
2025-01-30 08:55:20 留言:楼主是一个典型的文艺青年啊!https://www.zaloi.com/
-
2025-01-30 09:00:13 留言:小弟默默的路过贵宝地~~~https://www.sougoui.com/
-
2025-01-30 10:26:23 留言:刚看见一个妹子,很漂亮!https://www.btoko.com/
-
2025-01-30 10:45:34 留言:鸟大了,什么林子都敢进啊!https://www.btoko.com/
-
2025-01-30 11:17:28 留言:论坛的帖子越来越有深度了!http://www.syfyhs.com/
-
2025-01-30 12:49:29 留言:听楼主一席话,省我十本书!https://www.sougoui.com/
-
2025-01-30 13:08:56 留言:最近压力山大啊!https://www.linewb.com/
-
2025-01-30 13:20:54 留言:很有品味!https://www.sougoui.com/
-
2025-01-30 14:37:44 留言:我只看看不说话。。。https://www.btoko.com/
-
2025-01-30 15:23:55 留言:勤奋灌水,天天向上!http://www.ksrmm.com/
-
2025-01-30 17:48:03 留言:楼上的真不讲道理!http://www.hhh961.com/
-
2025-01-30 18:51:18 留言:楼主你想太多了!https://www.sougoui.com/
-
2025-01-30 18:56:24 留言:楼主内心很强大!http://ytitr.yy0.com.cn
-
2025-01-30 19:07:40 留言:楼主你想太多了!http://hbj9z.yijibo.cn
-
2025-01-30 19:23:27 留言:楼上的真不讲道理!http://5r7t4.www.jhkkw.com
-
2025-01-30 20:52:20 留言:这一年啥事没干,光研究楼主的帖子了!http://www.cqtxzb.com/
-
2025-01-30 21:14:55 留言:看帖回帖一条路!http://xsm.25ght.bjerba.com
-
2025-01-30 21:16:59 留言:楼主练了葵花宝典吧?https://www.zaloi.com/
-
2025-01-30 23:17:03 留言:楼上的这是啥态度呢?http://9loyf.yy0.com.cn
-
2025-01-31 01:01:27 留言:很给力!https://www.sougoui.com/
-
2025-01-31 01:12:45 留言:楼主的帖子越来越有深度了!https://www.btoko.com/
我要评论