HOTR: End-to-End Human-Object Interaction Detection with Transformers

编程入门 行业动态 更新时间:2024-10-25 10:24:33

模型在vcoco场景1上的验证效果

模型在vcoco场景2上的验证效果
模型在HICO-DET上的验证效果

HOTR的模型结构图如下所示:
在代码中如何实现的?

  1. 在Backbone中:
    (1)将图片([bs,3,H,W])送入CNN模型中进行特征提取,使用了ResNet50,得到特征图src([bs,2048,h,w])
    (2)引入位置编码pos_embed[bs,256,h,w],query_embed([100,256])

  2. 在进入Transformer前,将特征图src降维([bs,256,h,w])

  3. 进入Transformer:
    (1)Encoder:
      首先将src与pos_embed降维,并交换维度:
        src由[bs,256,h,w]→[hw,bs,256],
        pos_embed由[bs,256,h,w]→[hw,bs,256],
        query_embed由[100,26]→[100,bs,256],

    B. 将src,pos_embed,query

更多推荐

HOTR: End-to-End Human-Object Interaction Detection with Transformers

本文发布于:2023-06-11 01:35:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1368540.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:Object   Human   HOTR   Transformers   Detection

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!