目前单卡RTX4090网络采用12层Transformer解码器实现,训练消耗约16GB显存。如果您有能力、或您是投资人,请助我们一臂之力!----目前的超参数:batch_size = 256d_emb = 512decoder_layers = 6heads = 32