阿里云推大规模视觉语言模型开源，支持中英文多种语言

来源：中关村在线时间：2023-08-27 12:21:59

(相关资料图)

阿里云于8月25日推出了大规模视觉语言模型Qwen-VL，该模型已在ModeScope开源。此前，阿里云已经开源了通用模型Qwen-7B和对话模型Qwen-7B-Chat。Qwen-VL是一款支持中英文等多种语言的视觉语言模型，相较于此前的视觉语言模型，除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。Qwen-VL以Qwen-7B为基座语言模型，在模型架构上引入视觉编码器，使得模型支持视觉信号输入，该模型支持的图像输入分辨率为448，此前开源的视觉语言模型通常仅支持224分辨率。官方表示，该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景，在主流的多模态任务评测和多模态聊天能力评测中，取得了远超同等规模通用模型的表现。在Qwen-VL的基础上，通义千问团队使用对齐机制，打造了基于语言模型的视觉AI助手Qwen-VL-Chat，可让开发者快速搭建具备多模态能力的对话应用。通义千问团队同时表示，为了测试模型的多模态对话能力，他们构建了一套基于GPT-4打分机制的测试集“试金石”，对Qwen-VL-Chat及其他模型进行对比测试，Qwen-VL-Chat在中英文的对齐评测中均取得了开源视觉语言模型最好结果。

标签：

上一篇：兴业证券(601377)：投行表现亮眼经纪业务承压

下一篇：最后一页

为您推荐

阿里云推大规模视觉语言模型开源，支持中英文多种语言

2023-08-27

中关村在线
用益-私募市场动向：键凯科技参设私募股权专项基金

2023-08-27

用益信托网
兴业证券(601377)：投行表现亮眼经纪业务承压

2023-08-27

清一色财经
收评：沪指探底回升微跌大金融股集体反弹

2023-08-27

九方智投
三星手机22s（三新手机）

2023-08-27

互联网

为您推荐

资讯

财经

产经

金融