谷歌申请利用视频核的稀疏应用的视觉TRANSFORMER专利，可执行视频处理的机器学习模型

金融界2025年7月1日消息，国家知识产权局信息显示，谷歌有限责任公司申请一项名为“利用视频核的稀疏应用的视觉TRANSFORMER”的专利，公开号CN120239875A，申请日期为2023年11月。

专利摘要显示，提供了用于以改进的效率执行视频处理的机器学习模型。特别地，机器学习模型可以执行一个或多个视频核到一组视频数据的稀疏应用以生成视频标记，该视频标记可以例如被提供作为视觉transformer的输入。因此，本公开的示例实现方式涉及一种可以将视觉transformer(例如，ViT编码器)转变成高效视频模型的方式。此外，本文描述的示例实现方式可以无缝地与图像输入和视频输入两者一起工作。具体地，通过对输入进行稀疏采样，模型能够依据两种输入进行训练和推断。所提出的模型是可容易地扩缩的，并且可以可选地在无需完全微调的情况下被适配于大规模的经预训练的视觉transformer。

本文源自金融界