Language Models are Causal Knowledge Extractors for Zero-shot Video Question Answering

Language Models are Causal Knowledge Extractors for Zero-shot Video Question Answering | IEEE Conference Publication | IEEE Xplore