全部
API服务
开放平台
博客文章
搜索结果
以下有88条结果和 "多模态大模型"相关
1.360多模态大语言模型
专用API
360智脑是一款具备多种核心能力的模型系统,包括生成创作、轮对话、代码能力、逻辑推理、知识问答、阅读理解、文本分类、翻译、改写、模态等。
AI技术
AI大模型
2.多模态大模型综述:探索多模态AI的前沿与应用
博客文章
模态模型综述:探索模态AI的前沿与应用。近年来,模态语言模型(MLLM)成为人工智能研究的重要方向,通过结合文本、图像和音频等多种数据模态,展示了创新能力,如基于图像写故事和无OCR的数学推理等。这些模型受益于语言模型(LLM)的发展,通过模态特定的编码器、跨模态融合层和主干网络实现模态数据的理解与生成。模态模型在情绪识别和图像生成等领域展现出应用潜力,未来研究将提升其效率和性能。
3.多模态大模型,全面综述与指南
博客文章
本文全面综述了多模态大型语言模型(MLLMs)的发展,探讨了其在整合文本、图像、视频和音频等数据类型,实现复杂的跨模态理解和生成能力的应用。文章详细介绍了MLLMs的架构、训练方法、实际应用和关键挑战,并讨论了伦理问题和未来发展方向,为研究人员和从业者提供了宝贵的理论框架和实际见解。
4.MedGPT AI医生-医联
专用API
MedGPT AI医生作为一款具有高度智能化、广泛病种覆盖率和模态能力的医疗语言模型,同时也是国内首款医疗语言模型,为治愈而生的LLM,在医疗健康领域具有广阔的应用前景和发展潜力。
AI技术
AI大模型
5.对多模态大模型的检索增强策略与应用
博客文章
检索增强的图像生成是一种结合信息检索与图像生成技术的方法,通过从知识库中提取与用户输入文本描述相关的内容,为生成的图像提供丰富的背景信息。这种方法确保生成的图像与文本描述高度一致,提高了图像的质量和准确性。信息检索在其中扮演关键角色,提供生成图像所需的上下文信息,增强了模型对复杂实体的理解能力。这项技术为人工智能在图像生成领域带来了新的可能性和更丰富的视觉体验。
6.SenseChat 5.5 Agent 开发:引领多模态大模型新时代
博客文章
SenseChat 5.5 agent 开发引领了模态模型新时代。其在多项全球权威测评中表现优异,超越了GPT-4o。商汤科技通过这一技术革新,展示了其在AI领域的技术创新和生态策略,推动了国产模型的发展。
7.多模态大模型:探索人工智能的新时代
博客文章
模态模型(MLLMs)是人工智能领域的重要创新,结合了语言处理与视觉、音频等模态数据的能力。通过视觉编码器、语言模型和适配器模块的架构设计,这些模型能够整合文本、图像、声音等输入与输出,提供丰富自然的交互体验。模态模型在内容生成、智能交互、医疗诊断和自动驾驶等领域应用广泛,尽管面临数据对齐等技术挑战,但其发展方向包括更高效的模型架构和更广泛的应用场景。
8.AI绘画-聚美
专用API
AI绘画基于AI模型文生图系统,可基于文字语言生成图像,支持丰富的修饰词,满足个性化创作需求。模型融入语言、视觉、跨模态源知识,参数规模达数百亿,根据生成阶段从图像轮廓渐进优化细节,全面提升图片生成质量。
AI技术
AI绘画
9.紫东太初大模型
专用API
中国科学院自动化研究所和武汉人工智能研究院推出新一代模态模型,支持轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务,拥有更强的认知、理解、创作能力,带来全新互动体验。
AI技术
AI大模型
10.多模态大模型微调实践!PAI+LLaMA Factory搭建AI导游
博客文章
如何微调模型、高效搭建AI应用成为了开发者们广泛关注的技术方向。阿里云人工智能平台PAI,联合开源低代码模型微调框架LLaMA Factory ,共同打造模态模型微调训练最佳实践,通过微调 Qwen2-VL 模型,快速搭建文旅领域知识问答机器人,带您开启AI创新与应用之旅
11.AI绘画高级版-聚美
专用API
AI绘画高级版基于AI模型文生图系统,可基于文字语言或图片生成图像(图生图),支持输入参考图片进行风格迁移,支持更丰富的风格和流派。模型融入语言、视觉、跨模态源知识,参数规模达数百亿,根据生成阶段从图像轮廓渐进优化细节,全面提升图片生成质量。
AI技术
AI绘画
12.无缝集成:360多模态大语言模型API在现代应用中的创新应用
博客文章
本文将为你提供一站式的集成方案,助你快速掌握如何将360模态语言模型API集成到你的项目中。
13.2025年AI大模型排行:从代码生成到多模态处理,谁是最佳选择?
博客文章
本文聚焦于2025年主流AI模型的比较与选择,针对初级开发人员,从应用场景出发,深入剖析了OpenAI GPT-4.5、Google Gemini 2.0、Anthropic Claude 3.7 Sonnet和DeepSeek R1四个模型的特点与优势。文章首先阐述了AI模型的重要性,指出其在领域广泛应用且性能各异,合理选择模型对项目成果和资源利用至关重要。接着从模型架构、应用场景、性能指标、易用性与集成、成本与效率等维度对各模型进行详细比较,如GPT-4.5语言理解和生成能力强、适用于多种场景但成本高,Gemini 2.0在模态任务中表现突出但资源需求通过代码生成案例直观展示模型差异,分析各模型输出代码的质量、效率及适用性。最后给出选择建议,根据项目需求、预算、技术能力等因素选择合适的AI模型,以期为开发人员提供参考,助力项目成功。
14.从容大模型1.5及其Agent开发的全面解析
博客文章
在人工智能领域,从容模型1.5是云从科技推出的模态AI模型,为Agent开发带来了新突破。该模型在语言、视觉和语音等模态协同方面表现出色,适用于智慧城市、智能制造和教育等领域。通过实时学习和上下文理解,从容模型1.5提升了Agent的自然语言处理和模态数据分析能力,能够更好地理解用户需求并作出响应,推动行业智能化升级。
15.2024年国内API精品:值得推荐的AI大模型
博客文章
本文将介绍几款值得推荐的AI模型API,包括商汤日日新开放平台-AIGC、360模态语言模型、通用模型开放平台-华藏、KimiGPT开放平台-文本生成、百度文心一言模型、紫东太初模型以及百川模型
搜索