-
一统江湖的视觉chatGPT出来了,如果我们想整合语言和图像以外的模态,比如视频或语音,该怎么办?每次涉及新的模态或功能时,会消耗大量的数据和计算资源。是否有必要训练一个全新的多模态模型?
这简介就离谱