全部
API服务
开放平台
博客文章
搜索结果
以下有88条结果和 "多模态大模型"相关
1.360多模态大语言模型
专用API
360智脑是一款具备多种核心能力的模型系统,包括生成创作、轮对话、代码能力、逻辑推理、知识问答、阅读理解、文本分类、翻译、改写、模态等。
AI技术
AI大模型
百度千帆
https://cloud.baidu.com

2.百度千帆-千帆大模型平台-百度智能云千帆
百度智能云千帆是企业级一站式模型与AI原生应用开发及服务平台,提供模型开发、应用开发服务,全面支持文心模型4.5/X1 API调用,涵盖模态Agent、模态工作流等企业级应用搭建,助力企业高效开发
3.多模态大模型综述:探索多模态AI的前沿与应用
博客文章
模态模型综述:探索模态AI的前沿与应用。近年来,模态语言模型(MLLM)成为人工智能研究的重要方向,通过结合文本、图像和音频等多种数据模态,展示了创新能力,如基于图像写故事和无OCR的数学推理等。这些模型受益于语言模型(LLM)的发展,通过模态特定的编码器、跨模态融合层和主干网络实现模态数据的理解与生成。模态模型在情绪识别和图像生成等领域展现出应用潜力,未来研究将提升其效率和性能。
4.2025年最佳多模态大模型排名
博客文章
模态模型(Multimodal Large Models)是一种能够处理和理解多种类型数据(如文本、图像、音频、视频等)的人工智能模型。它通过融合不同模态的信息,可以更全面地理解和生成内容,从而在各种任务中展现出卓越的性能。例如,它可以分析图像并生成描述性文本,或者根据文本描述生成相应的图像。这种模型的核心在于模态融合、跨模态表示学习等技术,能够将不同模态的数据映射到统一的语义空间,从而实现更智能的交互和更准确的预测。
5.多模态大模型,全面综述与指南
博客文章
本文全面综述了多模态大型语言模型(MLLMs)的发展,探讨了其在整合文本、图像、视频和音频等数据类型,实现复杂的跨模态理解和生成能力的应用。文章详细介绍了MLLMs的架构、训练方法、实际应用和关键挑战,并讨论了伦理问题和未来发展方向,为研究人员和从业者提供了宝贵的理论框架和实际见解。
6.ERNIE 4.5
专用API
最新
文心模型4.5是百度自主研发的新一代原生模态基础模型,通过多个模态联合建模实现协同优化,模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升
AI技术
AI大模型
7.Qwen_v2_1.5b_Instruct
专用API
最新
Qwen是阿里巴巴集团Qwen团队研发的语言模型和大型模态模型系列。目前,语言模型已升级至Qwen2版本。无论是语言模型还是模态模型,均在大规模多语言和模态数据上进行预训练,并通过高质量数据进行后期微调以贴近人类偏好。
AI技术
AI大模型
8.Qwen2.5 VL 72B
通用API
最新
Qwen2.5 VL 72B 是阿里通义千问团队推出的模态模型,支持图文理解与生成,参数规模达 720 亿,具备卓越的跨模态推理能力。该模型已开源并支持商用,适用于图像问答、视觉描述、OCR 等场景,面向高性能模态智能体构建。
AI技术
AI大模型
9.Qwen2.5-VL-72B-Instruct
专用API
最新
Qwen2.5 VL 72B 是阿里通义千问团队推出的模态模型,支持图文理解与生成,参数规模达 720 亿,具备卓越的跨模态推理能力。该模型已开源并支持商用,适用于图像问答、视觉描述、OCR 等场景,面向高性能模态智能体构建。
AI技术
AI大模型
10.对多模态大模型的检索增强策略与应用
博客文章
检索增强的图像生成是一种结合信息检索与图像生成技术的方法,通过从知识库中提取与用户输入文本描述相关的内容,为生成的图像提供丰富的背景信息。这种方法确保生成的图像与文本描述高度一致,提高了图像的质量和准确性。信息检索在其中扮演关键角色,提供生成图像所需的上下文信息,增强了模型对复杂实体的理解能力。这项技术为人工智能在图像生成领域带来了新的可能性和更丰富的视觉体验。
11.SenseChat 5.5 Agent 开发:引领多模态大模型新时代
博客文章
SenseChat 5.5 agent 开发引领了模态模型新时代。其在多项全球权威测评中表现优异,超越了GPT-4o。商汤科技通过这一技术革新,展示了其在AI领域的技术创新和生态策略,推动了国产模型的发展。
12.多模态大模型微调实践!PAI+LLaMA Factory搭建AI导游
博客文章
如何微调模型、高效搭建AI应用成为了开发者们广泛关注的技术方向。阿里云人工智能平台PAI,联合开源低代码模型微调框架LLaMA Factory ,共同打造模态模型微调训练最佳实践,通过微调 Qwen2-VL 模型,快速搭建文旅领域知识问答机器人,带您开启AI创新与应用之旅
13.MedGPT AI医生-医联
专用API
MedGPT AI医生作为一款具有高度智能化、广泛病种覆盖率和模态能力的医疗语言模型,同时也是国内首款医疗语言模型,为治愈而生的LLM,在医疗健康领域具有广阔的应用前景和发展潜力。
AI技术
AI大模型
14.2025年AI大模型排行:从代码生成到多模态处理,谁是最佳选择?
博客文章
本文聚焦于2025年主流AI模型的比较与选择,针对初级开发人员,从应用场景出发,深入剖析了OpenAI GPT-4.5、Google Gemini 2.0、Anthropic Claude 3.7 Sonnet和DeepSeek R1四个模型的特点与优势。文章首先阐述了AI模型的重要性,指出其在领域广泛应用且性能各异,合理选择模型对项目成果和资源利用至关重要。接着从模型架构、应用场景、性能指标、易用性与集成、成本与效率等维度对各模型进行详细比较,如GPT-4.5语言理解和生成能力强、适用于多种场景但成本高,Gemini 2.0在模态任务中表现突出但资源需求通过代码生成案例直观展示模型差异,分析各模型输出代码的质量、效率及适用性。最后给出选择建议,根据项目需求、预算、技术能力等因素选择合适的AI模型,以期为开发人员提供参考,助力项目成功。
15.无缝集成:360多模态大语言模型API在现代应用中的创新应用
博客文章
本文将为你提供一站式的集成方案,助你快速掌握如何将360模态语言模型API集成到你的项目中。
搜索