Publications

4 results for Brian Chen

What When and Where? Self-Supervised Spatio Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions
- - Brian Chen
  - Nina Shvetsova
  - et al.
- 2024
- CVPR 2024
Everything at Once - Multi-modal Fusion Transformer for Video Retrieval
- - Nina Shvetsova
  - Brian Chen
  - et al.
- 2022
- CVPR 2022
AVLnet: Learning audio-visual language representations from instructional videos
- - Andrew Rouditchenko
  - Angie Boggust
  - et al.
- 2021
- INTERSPEECH 2021
Cascaded multilingual audio-visual learning from videos
- - Andrew Rouditchenko
  - Angie Boggust
  - et al.
- 2021
- INTERSPEECH 2021