万字详述：上半年最值得关注的大新品丨海外篇

经验 2024年07月27日 09:33 882 品杰

2024年上半年海外发布的10款重要AI产品，涵盖了初创公司和老牌科技巨头的最新成果。这些产品不仅展示了AI技术的进步，还为各行各业带来了全新的应用可能性。无论您是科技爱好者还是专业人士，这篇文章都将为您提供宝贵的信息和启发。

2023年标志着AI聊天机器人和各类工具的诞生、测试和初期探索。2024年则迎来了AI工具的成熟与广泛应用。阿木聊AI（智能体）关注到海外2024上半年最为重要的10款AI产品发布，包括初创公司Anthropic、Mistral和OpenAI，老牌科技巨头Google和Microsoft，以及Adobe和Salesforce等服务商。

一、OpenAI/ChatGPT-4oOpenAI在5月推出了旗舰模型ChatGPT-4o，这是一款集视觉、听觉和实时对话于一体的AI聊天机器人。它的主要特点和功能包括：

多模态理解与生成：可以对音频、视觉和文本进行实时推理，接受文本、音频和图像的任何组合作为输入，并生成文本、音频和图像的任何组合进行输出。能更好地理解和处理复杂信息，提供更丰富全面的回答。实时响应能力：能够在最短232毫秒内响应音频输入，平均响应时间为320毫秒，与人类在对话中的响应时间相似，使用户能更流畅地与之交互，提高沟通效率。跨模式安全性：在设计中内置了跨模式的安全性，并创建了新的安全系统，为语音输出提供护栏。通过过滤训练数据和训练后改进模型行为等技术，保障用户信息安全，提高互动安全性。性能提升：在传统基准测试中，其在文本、推理和代码智能方面达到了GPT-4turbo级的性能，同时在多语言、音频和视觉能力方面达到新高度。在英文文本和代码上的性能与GPT-4turbo相当，在非英文文本上有显著改善。它在多语言处理方面表现出色，支持多种语言。

GPT-4o相比之前的模型，在多模态支持、响应速度等方面有所提升。例如，GPT-4是基于文本的语言模型，而GPT-4o是跨文本、视觉和音频的端到端新模型；GPT-4o的响应速度更快，最短可在232毫秒内响应音频输入，而GPT-4的响应速度相对较慢。

GPT-4o的应用场景广泛，例如可以作为实时视觉助手，帮助用户实时讨论所看到的内容并获取相关信息；辅助学习，如读取iPad中的题目并通过语音提供学习指导；充当实时翻译，实现不同语言间的实时翻译；用于会议助手，记录会议内容、生成纪要和总结等；进行情感理解与表达，通过声音理解和表达情绪，更自然地与用户交互；处理图像处理与创作，根据需求对图片进行处理和创作，如添加文字、调整颜色等。

二、Apple/AppleIntelligence苹果在6月的全球开发者大会上公布了其AI项目AppleIntelligence，预计将在秋季为下一代iPhone、iPad和Mac操作系统带来多项新功能：

语言和图像理解与生成能力：为用户解锁提高写作和沟通的新方式，内置可全系统调用的新工具Writingtools，让用户能在几乎任何场景下对文本进行改写、校对和摘要，包括邮件、备忘录、Pages文稿和各类第三方app。例如可帮助用户整理课堂笔记，检查文章是否通顺等；改写工具可根据受众和文稿诉求调整文风；proofread工具能检查语法、措辞和语句结构，并给出修改建议及说明；summarize工具可对用户选中文本进行归纳总结。备忘录app和电话app可让用户录制音频，并将音频转写成文本以及生成内容摘要。提供有趣的图像创作功能：借助于imageplayground，用户可在数秒间创作出有趣的图像，且有动画、插画、手绘三种样式选择，还可根据不同分类或自定义描述进行创作，也能从照片图库中选取人物添加在图像内。该功能直接内置在信息等多款app中，也可作为单独的app安装使用。在信息app中使用时，用户可快速创作出趣味图像发送给朋友，并会看到基于当前对话生成的个性化创意推荐；在备忘录app中，用户可通过ApplePencil工具盘中新增的imagewand工具调用imageplayground，为笔记添加更多视觉趣味性。情景驱动的通知：可以识别对用户个人情境重要的通知。Prioritynotifications会出现在分组通知的最上方，提示最为重要的事项，还有内容摘要帮助用户快速浏览大量或已分组的通知，直接在锁定屏幕上显示详细信息。全新专注模式“reduceinterruptions”仅会显示可能需要即刻被看到的通知。跨应用程序任务处理：能够深入研究用户的应用程序并代表用户执行任务。例如让siri播放女友发来的播客，或在收到邮件通知会议延期时，询问siri是否还能赶上和朋友之前约的电影，siri可以综合调用短信、邮件、地图等工具来进行判断。关注个人背景：利用用户的全部活动和屏幕上的内容，例如用户可以询问会议转移是否会导致迟到。更智能的siri：在其加持下siri将更加深入地融入到系统体验中。siri出现时屏幕周围会闪烁发光，用户可以通过文本使用siri，它能实时纠正用户的陈述，并提供与操作系统更紧密集成的新外观。它支持连续对话和上下文理解，能联系上下文，分析不连贯或修正过的语言。还具备屏幕内容理解能力，例如可把朋友发来的地址信息添加到朋友的地址中，用户也能设置与siri进行对话的方式（语音或文字），并自由在文字和语音之间切换。

不过，AppleIntelligence的部分功能目前存在一些使用限制。例如，只有iPhone15Pro和iPhone15ProMax可以访问AppleIntelligence，对于iPad和Mac用户，则需配备M1或更高配的芯片支持的设备。该系统目前仅支持英语，更多功能、语言和平台支持需要等到后续更新。

AppleIntelligence由多个高性能生成模型组成，其模型架构主要包括约30亿参数的本地模型以及可通过私有云计算并在Apple芯片服务器上运行的更大云端语言模型。苹果在训练基础模型时不使用用户的私人个人数据或用户交互，并使用过滤器等方式保证数据安全和隐私。其本地模型在一些测试中的性能优于部分其他模型，而云上模型水平基本与GPT-4-Turbo持平。

中信证券认为，苹果端侧AI落地过程中主打终端跨app的信息整合和调用，系统级个人助理定位更为清晰，成功拉开与现有安卓端AI手机的差距。如果有一家厂商能够在AI手机形态上做到极致，可能是具备芯片、模型、终端、操作系统一体化优势的苹果。

三、Google/ProjectAstra、Gemini、Imagen3谷歌在5月的I/O开发者大会上展示了其新的专家AI助手原型ProjectAstra，该助手基于现有的聊天机器人Gemini构建，能够穿透用户的手机和智能眼镜等设备。Gemini1.5Pro和1.5Flash是谷歌推出的新一代人工智能聊天机器人模型，而Imagen3则是其更新的图像生成器，进一步提升了图像生成的质量和多样性。

1.ProjectAstraProjectAstra是由谷歌的DeepMind部门发起的一个项目，旨在创建能够理解和处理日常任务的“通用AI代理”。这个项目的目标是开发出能够与用户日常互动的AI，比如通过智能手机或智能眼镜等设备提供帮助和信息。

该计划的愿景是让每个人都能拥有一个专家助手，这个助手可以通过用户的各种设备提供个性化服务和支持。

2.GeminiGemini是谷歌开发的一款聊天机器人，它基于先进的自然语言处理技术，能够理解和生成人类语言。Gemini1.5Pro是该系列的最新版本之一，它代表了在对话能力和语言理解方面的进一步发展。

Gemini1.5Pro旨在提供更加丰富和深入的对话体验，可能包括更好的上下文理解、更准确的回答以及更人性化的交互方式。

另外，还有Gemini1.5Flash，这可能是一个针对速度和效率优化的版本，能够在需要快速响应的场景中提供服务。

3.Imagen3Imagen是谷歌开发的一款图像生成器，它使用人工智能技术根据用户的文本描述生成高质量、逼真的图像。Imagen3是该系列的最新版本，它代表了在图像生成技术方面的重要进步。

与之前的版本相比，Imagen3可能在图像质量、生成速度、多样性和准确性方面都有显著提升，能够更好地满足创意专业人士和普通用户的需求。

四、Microsoft/AIPC微软在5月宣布推出配备AI硬件和支持AI应用程序的CopilotPlusPC。这款笔记本电脑专为AI任务设计，搭载了高性能的基于Arm的芯片。

其主要特点包括：

全新系统架构与性能表现：采用由CPU、GPU和可实现每秒超过40万亿次运算（40 TOPS）的全新NPU（神经处理单元）相结合的系统架构。它是有史以来生产的更快、更智能的WindowsPC，在设备本地解锁了一系列全新AI体验。例如，通过新功能“回顾”（Recall）可以轻松回忆和找寻此前在PC上看过的内容，能帮助用户根据记忆中的线索碎片快速、直观地检索出想要寻找的内容。该功能仅限于个人的本地设备，不会使用任何信息训练AI模型。另外，它还支持增强的Windows工作室效果、实时字幕等功能，实时字幕可以将自动将任意app或视频平台上的直播或录播音频即时翻译成英文字幕，支持包含中文在内的40多种语言翻译，即便用户处于离线状态，也能实现该功能。高效的芯片：首批Windows11AIPC搭载高通的桌面处理器骁龙（Snapdragon）XElite芯片，这款开创性平台将重塑性能，凭借一流的CPU性能、领先的终端侧AI推理和支持多天续航的高能效PC处理器，显著提升PC体验。它采用定制的集成高通OryonCPU，4纳米制程工艺，拥有12个高性能内核，在每瓦特性能方面保持领先。当用户需要最高性能时，OryonCPU还可以通过双核增强加速其中2个高性能CPU内核，从而为用户提供超快响应。集成的AdrenoGPU能够实现出色图形性能，带来沉浸式娱乐体验。骁龙XElite采用的高通AI引擎具有领先的异构计算架构，HexagonNPU、AdrenoGPU和OryonCPU等可共同实现超过70TOPS的算力。其中，高通HexagonNPU是高通AI引擎的核心，算力高达45TOPS，是目前市场中面向笔记本电脑的全球最快NPU，并具备领先的每瓦特性能。骁龙XElite不仅支持在终端侧运行超过130亿参数的生成式AI模型，并且目前独家支持Windows11AIPC。此外，该芯片充分发挥骁龙在移动计算领域的专长，支持超快和Wi-Fi7连接，能够带来无缝、无卡顿的极速连接体验，还支持SnapdragonSeamless体验、微软安全核心电脑（MicrosoftSecured-CorePC）等安全特性，打造从芯片到云的安全体验。丰富的应用体验：Windows率先与高通合作，提供了大量arm64原生应用程序体验，既有PowerPoint、Word等Microsoft365的app，又有爱奇艺、B站、FoxitPDFEditor专业版、酷狗音乐、QQ、QQ音乐和网易有道翻译等。Adobe系列旗舰级app也即将登陆Windows11AIPC，其中包括Photoshop、Lightroom和Express已于本周一上线，今年夏季还将推出Illustrator、PremierePro及更多app。在LiquidText中，利用完全由NPU驱动的本地AI功能，可更快、更智能地对文档进行注释，从而保证数据隐私。全新的WindowsCopilotRuntime中有超过40个AI模型，为“回顾”等功能提供支持。能效表现与续航能力：具有惊人的能效表现，单次充电即可支持长达22小时的本地视频播放或15小时的网页浏览，满足用户一整天的使用。安全特性：所有Windows11AIPC都是安全核心PC（Secured-CorePC），默认启用了MicrosoftPlutonSecurity处理器，并引入了许多新的功能、更新和默认设置，确保用户隐私数据安全。

自6月18日起，微软Surface以及戴尔、宏碁、华硕、惠普、联想等OEM合作伙伴将陆续推出Windows11AIPC。例如，微软公布的全新SurfacePro起售价999美元，配备LCD显示屏、XPlus处理器、16GBRAM和256GB存储空间。如果要升级为XElite芯片，则性能会更强劲，新版SurfacePro比SurfacePro9的速度快最多90%。SurfaceLaptop经过重新设计，有现代的线条和超薄边框，显示屏分13.8英寸和15英寸两种尺寸，有四种新颜色可供选择，新一代较前代SurfaceLaptop5的速度快最多86%，速度超过MacBookAir，电池续航能力也超过MacBookAir，本地视频播放时间长达22小时，且支持Wi-Fi7。

需注意的是，不同地区的功能可用性可能会有所差异。例如在中国大陆，WindowsCopilot无法使用，Copilot实体按键无法使用（按Copilot键将开启Windows搜索功能），但AIExplorer回顾功能可用，增强版的实时翻译也可以使用。

五、Meta/Llama3Meta于4月发布了Llama3，这是一个开源的大型语言模型，支持在其社交平台上使用对话式AI。Llama3以其开源特性和公众信任度高而受到好评，可在WhatsApp、Instagram和FacebookMessenger等多个平台上提供更加自然和直观的对话体验。它具有以下主要特点和信息：

性能提升：在多种行业基准测试上展现了先进的性能，提供了包括改进的推理能力等新功能。训练数据：在两个定制的24KGPU集群上，使用超过15T的公开数据进行训练，万字详述：上半年最值得关注的大新品丨海外篇这些数据量是Llama2数据集的7倍多，其中包含的代码数据是Llama2的4倍，并且有超过5%的预训练数据集由涵盖30多种语言的高质量非英语数据组成。模型架构：选择了相对标准的纯解码器Transformer架构，并做了关键改进，如使用具有128Ktoken词汇表的分词器，能更有效地对语言进行编码，从而显著提高模型性能；在8B和70B大小的模型上采用了分组查询注意力（GQA）以提高推理效率；在8192个token的序列上训练模型，使用掩码确保自注意力不会跨越文档边界。支持长文本：支持8K长文本，上下文长度是Llama2的两倍。指令微调：后训练过程的改进大大降低了模型出错率，进一步改善了一致性，并增加了模型响应的多样性。训练效率：训练效率比Llama2高3倍。新的能力：具备增强的推理和代码能力，能够进行复杂的推理，可以更遵循指令，能够可视化想法并解决很多微妙的问题，还支持零样本工具使用，包括网络搜索、数学运算和代码执行等。通过微调，它在调用自定义工具方面提供了强大的灵活性。版本开源：已开放80亿（8B）和700亿（70B）两个小参数版本用于预训练和微调，并面向开发者开源，包括预训练和微调版本。Meta称正在开发的最大模型是400B 参数，未来几个月内将推出多模态版本。应用广泛：可用于升级MetaAI工具，同时会整合到Meta旗下的Facebook、Instagram、WhatsApp和Messenger等主要平台的搜索功能中。Llama3模型也将在亚马逊AWS、Databricks、谷歌云、HuggingFace、Kaggle、IBMWatsonX、微软云Azure、英伟达NIM和Snowflake上被提供给开发者，并获得AMD、AWS、戴尔、英特尔、英伟达和高通提供的硬件平台支持。

Meta还开发了一套新的高质量人类评估数据集，涵盖12个关键用例，以评估模型性能。此外，Meta为保持开源的领先地位，放宽了许可，首次允许开发者使用Llama3.1模型的高质量输出来改进和开发第三方AI模型。

2024年7月24日，Meta发布了Llama3.1，在多项基准测试中一举超越GPT-4o和Claude3.5sonnet。Llama3.1的405B版本性能与最好的闭源模型性能相当，支持128K的上下文，具有多语言能力（包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语），良好的代码生成能力、复杂推理能力以及工具使用能力。同时，Meta大方放出了90多页的论文，详细介绍了预训练数据、过滤、退火、合成数据、缩放定律、基础设施、并行处理、训练方法、训练后适应、工具使用、基准测试、推理策略、量化、视觉、语音和视频等内容。

六、NVIDIA/Blackwell英伟达在3月推出了其下一代AI芯片Blackwell，以纪念数学家DavidBlackwell。这款芯片拥有2080亿个晶体管，其特点包括：

采用了台积电4np工艺生产。实际上是两个芯片通过连接结合在一起，以确保可以作为一个整体无缝运行，通过英伟达的高带宽接口（nv-hbi），能以10tb/s双向带宽互联，可支持更高的l2缓存带宽，没有内存局部性问题和缓存问题。在处理支持人工智能的模型方面可将速度提高数倍，包括训练阶段和推理阶段。英伟达在发布会上表示，相较于之前的H100芯片，BlackwellGB200超级芯片可以为大语言模型（LLM）推理负载提供30倍的性能提升，并将成本和能耗降低25倍。

2024年5月15日，谷歌CEO桑达尔·皮查伊宣布，将在2025年推出与英伟达合作的Blackwell芯片。同年6月2日，英伟达CEO黄仁勋表示Blackwell芯片已开始投产。

Blackwell将帮助推动人工智能工作超越诸如识别语音或创建图像等相对简单的工作。它的出现反映了英伟达对未来市场需求和行业趋势的前瞻性判断，例如摩尔定律带动性能提升越来越困难，芯片迭代需要多种技术创新组合；数据中心将被视为AI工厂，需要考虑系统级性能、能效以及多GPU组合的“巨型GPU”方案；AI模型的规模和数据量持续增长，需降低计算相关成本和能耗；高性能推理或生成至关重要，必须找到能在许多GPU上并行处理模型工作的方法等。

英伟达还构建了由72张GB200构成的DGXGB200NVL72超级计算机，其在内部节点间使用铜缆连接，以降低功耗。在HGXB200训练性能提升3倍，推理能力提升15倍的基础上，GB200NVL72集群将多个由GB200驱动的系统整合到一个液冷机架中，为数据中心提供了前所未有的计算能力，可将大型语言模型的训练速度提升4倍，为万亿参数的大型语言模型推理提供30倍的实时速度提升。

此外，英伟达推出的世界首个高速GPU互连技术NVLink，为处理最大视觉计算工作负载、释放百亿亿次计算能力和万亿参数人工智能模型的全部潜力提供关键基础。NVLinkSwitch协同NVLink可释放数据传输能力，通过连接多个NVLink，实现机架内和机架间全速度的GPU通信。NVLink和NVLinkSwitch整合英伟达AIEnterprise软件套件等，为用户提供全面的AI计算解决方案。

英伟达的新一代产品并不强制要求使用液冷，Blackwell架构将同时推出风冷DGX和液冷MGX两种服务器方案。但在AI数据中心领域，想要发挥Blackwell的最大潜力，液态冷却几乎是必选。风冷散热目前仍是数据中心的主流，液冷散热技术的推广应用面临着业内尚无服务器与机柜统一接口规范标准、液冷系统架构尚在演进、初期投资高和全生命周期成本高等挑战。

七、Mistral/Codestral-22BMistral在5月推出了Codestral-22B，这是其首个代码模型，支持80多种编程语言，并在性能上超越了以往的代码模型。主要特点包括：

参数量：具有220亿（22B）参数。多语言支持：在80多种编程语言的数据集上进行过训练，既包括Python、Java、C 、Bash等流行语言，也有像Fortran、COBOL这样的古早语言，其中COBOL诞生于1959年，但至今仍有43%的银行系统依赖它。性能表现：虽然参数量少于70B的CodeLlama，但在多种测评中取得了更优成绩。例如在针对Python语言的HumanEval（pass@1）、MBPP以及CruxEval等测试中表现出色，在RepoBench评估的远程存储库中的代码补全能力方面达到了最佳成绩，并对Llama3和CodeLlama形成了全面超越。在数据库的SQLSpider测试中，其表现也与通用模型Llama3十分接近。

在其他一些编程语言测试中，和通用版Llama3各有胜负，但平均成绩小幅超过了Llama3，且相对于CodeLlama的优势明显。在Python、JS和Java中的HumanEvalFIM评分接近或超过90%，平均成绩为91.6%，超过了参数量更大的DeepSeekCoder33B。

长上下文窗口：支持32k的上下文窗口，相比其他模型（通常为4k、8k或16k）大幅增加。代码编辑能力：支持FIM（fill-in-the-middle），可以对现有代码进行填充补全。使用方式多样：Mistral已将模型权重上传到了HuggingFace，可供有条件的用户自行下载部署。此外，LangChain、LlamaIndex、Ollama等大模型框架以及Mistral自家的开发者平台LaPlateforme已支持使用Codestral。它还提供了专属API，其中codestral.mistral.ai正在进行免费测试，api.mistral.ai则按token收费。用户也可通过Mistral的在线对话平台LeChat直接使用网页进行对话。同时，第三方插件continue.dev、Tabnine支持通过在VSCode和JetBrains系列IDE中使用Codestral。

不过，Codestral使用了全新的“非生产”（Non-Production）许可协议MNPL，按照规定仅可用于研究目的，不能进行商用，即使仅将其用于公司内部事务也不被允许。Mistral表示后续会继续发布基于Apache2.0协议的其他模型。

八、Anthropic/Claude3.5SonnetClaude3.5Sonnet是Anthropic公司于2024年6月21日发布的AI模型。它是Claude3.5系列模型中的首个版本。

以下是Claude3.5Sonnet的一些主要特点：

性能优势：在阅读、编码、数学和视觉等主要AI基准测试中，其能力不仅超过了Claude3，也超越了Anthropic此前的旗舰模型Claude3Opus。在研究生水平推理（GPQA）、编码能力（HumanEval）、文本推理（DROP）等方面表现出色，成绩优于GPT-4o，但在数学问题解决能力上稍逊于后者。它能够更好地理解指令之间的细微差别，有更强的幽默能力，还为包括GPQA（研究生水平推理）、MMLU（本科生水平知识）与HumanEval等基准测试设立了全新的行业标准。根据内部代理编码评估，其解决了64%的问题，远超Claude3Opus的38%。视觉能力：作为一款多模态大模型，其视觉能力有较大提升。它可以更准确地解释图表和图形，能在带有扭曲和视觉伪像等“不完美”图像中顺利完成文本转录任务，在所有标准视觉基准测试中的平均表现比Claude3Opus高出10%。它擅长解释和分析视觉数据，例如理解复杂的图表、图形和图解，分析信息图表和科学可视化，解释场景中的空间关系等；可以无缝融合图像和文本的信息；能够准确识别和描述图像中的物体；支持视觉问答，可根据视觉分析提供答案；能利用视觉信息来协助解决问题；可以提供有关艺术风格、设计元素和视觉美学的见解；展示了识别和转录手写文本的改进能力；可以从视觉呈现的数据中提取相关信息，还能处理多种文本样式以及转录多种语言的文本，并理解图像中文本的上下文，在转录结构化文本时通常可以保留或描述原始格式。运行速度与成本：运行速度是Claude3Opus的两倍，而价格仅为后者的五分之一。其输入价格为3美元/百万tokens，输出价格为15美元/百万tokens，上下文窗口长度达200ktokens。新功能：Anthropic推出了Artifacts预览版，这是一个可供用户添加和编辑其模型生成内容的工作空间，例如用其生成的代码、文档、图像、网站设计等内容创建作品。该产品会在Claude的web客户端设置一个专用窗口，类似于将大模型接入工作流。

此外，Anthropic透露公司将在今年晚些时候陆续更新其余两款大模型Claude3.5Haiku和Claude3.5Opus。同时，亚马逊云科技也宣布Claude3.5Sonnet已正式接入其AmazonBedrock。

如需使用Claude3.5Sonnet，由于国内尚未开放使用，需注意接受验证码的手机号码不能属于中国地区。注册条件通常包括一个邮箱（如微软或谷歌邮箱）和一个海外手机号。具体注册方式可以参考相关平台的指引。同时，除了官方渠道，还有一些其他方式可以使用Claude3.5Sonnet，例如通过slack工作区、poe等平台，但可能需要满足相应平台的要求和条件。

九、Adobe/GenStudio

Adobe在3月公布了GenStudio，这是一款利用生成式AI帮助用户创建内容、管理品牌资产、跟踪活动效果并简化工作流程的应用程序。它本质上是一个关于营销活动的一体化平台，提供了多种功能和服务，包括：

品牌工具包、文案建议、预审合格的资源：可用于生成符合品牌风格的活动背景和整体基调。多种工具：能帮助用户迅速为电子邮件及Facebook、Instagram和LinkedIn等社交媒体平台制作广告。内容中心：提供直观界面，方便搜索、编辑、重复使用和分享营销活动的素材。活动管理：提供集中的活动概览，包括活动简介和活动时间表，使活动策划过程更高效。发布功能：与AdobeExperienceCloud的多个产品（如JourneyOptimizer、ExperienceManager、Marketo和Target）无缝集成，也可轻松导出到其他第三方应用。数据洞察：让营销人员可以实时了解内容在不同渠道的使用情况和效果，通过AI技术生成不同的内容版本，进而提升活动效果。

生成式人工智能

AdobeGenStudio目前还在内部测试阶段，预计将于今年晚些时候正式推出。其定价将根据不同公司而有所差异。

该平台的推出旨在方便用户利用Adobe的生成式人工智能工具创建营销活动。Adobe声称Firefly模型在商业应用上是安全的，仅使用AdobeStock图片、已公开授权的内容及公共领域的内容进行训练，因此不太可能产生侵犯他人知识产权的内容。

此外，微软也创建了名为GenStudio的在线体验工具。它使用了GenerativeAdversarialNetworks（GAN，使用两种竞争AI网络创建逼真图像的AI主流形式），借助Azure和Kubernettes的强大功能，并基于大都会艺术博物馆（TheMet）庞大的艺术品数据库，可以帮助任何人创建并不存在但非常逼真的艺术品。其核心挑战是如何将大都会艺术博物馆的图像映射到生成它的种子上，他们使用了基于梯度下降的网络反转来学习每个图像的种子，关键是指示网络不仅要匹配目标图像的像素，还要匹配其高级特征和内容。

不过，Adobe的GenStudio更为人熟知，且主要应用于营销领域。如果你想了解的是微软的GenStudio艺术创作工具，可以通过其官方网站获取更详细的信息。

十、Salesforce/Einstein

Salesforce在4月宣布其企业级聊天机器人EinsteinCopilot全面上市，该机器人在减少幻觉和生成虚假信息方面具有优势。尽管EinsteinCopilot的推出受到了市场的期待，但Salesforce的股价表现并未达到预期，反映了市场对AI产品接受度和商业成功的不确定性。

SalesforceEinstein是CRM（客户关系管理）的首款全面AI产品。它具有以下特点：

数据就绪：无需准备数据或管理模型，只需将数据放入Salesforce即可使用。建模就绪：多租户自动机器学习意味着会为组织自动匹配恰当的模型。生产就绪：依托同样可信赖的Salesforce平台，具有模型管理和监控工具。

Einstein可以帮助企业提高智能化程度并更好地预见客户需求，具体来说：

销售人员可以预测潜在机会并超出客户期待。服务人员可以避免潜在问题发生，变被动为主动。营销人员可以开展预见性的活动，营造前所未有的个性化体验。IT人员可以将智能融入每个角落并为员工和客户创建更加智能的应用程序。

Einstein可与许多Salesforce产品无缝集成，其功能广泛应用于各个领域，例如：

EinsteinSalesCloud：用于提升效率和效果，功能包括预测转化可能性，给潜在客户自动打分；基于组织的最佳实践分析预测后续跟踪趋势，并通过销售周期分析制定下一步的行动计划；通过AI自动捕获发现新老客户的商机。EinsteinServiceCloud：用于提升效率和服务体验，功能包括自动预测和填充案例的相关字段；自动根据客户请求路由服务和处理人员，减少客户等待和切换时间；智能客服功能，根据客户的对话信息和上下文信息，提供知识建议和对话建议，协助客服人员更快解决问题。2022年起重磅推出ChatGPTAI。EinsteinMarketingCloud：提供客户洞察和预测，深入了解客户；接触客户的渠道和时间点的智能建议；为客户提供一对一的个性化消息和内容，实现千人千面。EinsteinCommerceCloud：个性化商品推荐，提升客单价和复购率；客户行为模式仪表板，为商品推销和营销提供数据支撑；个性化显式搜索排序（搜索框）、个性化隐式搜索排序（首页浏览、品类页浏览）。EinsteinCommunity：推荐相关的专业人士、小组和内容，降低社区成员寻找所需资源的难度；借助智能的活动源，确保社区成员可以看到重要帖子和热门话题等高人气内容，从而保证成员持续参与；帮助社区成员寻找经过认证的相关专业人士，以便于他们尽快解决最要紧的问题。

此外，Einstein还包含一些特定的平台功能，如EinsteinBots（使用自然语言处理技术，能够为客户提供即时帮助）、EinsteinVoice（包括语音助理和语音机器人两部分，可实现文字与语音的相互转换，以及通过智能扬声器和Salesforce软件进行对话等功能）、EinsteinPredictionBuilder（可以通过点击的方式构建自定义预测）、EinsteinNextBestAction（根据预测结果或者特定条件自动触发下一步最佳行动）、EinsteinDiscovery（自动分析并发现数据中的行为模式，洞察数据中的相关关系）、EinsteinVision（可对图像进行分类，对图像中的物体进行识别）、EinsteinLanguage（能够分析文本的感情色彩，提取文本语义并进行分类）、EinsteinRecommendation（智能推荐，如商品推荐、社区内容推荐等）。

关于SalesforceEinstein的具体价格，需要联系客户主管了解。同时，Salesforce也会提供免费的在线培训、人工智能资源及最佳实践材料，帮助用户快速了解如何利用其人工智能技术提高组织效率和客户满意度。

本文由@阿木聊AI（智能体）原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Kimi官网截图

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

标签：万字详述上半年最值得关注的大新品丨海外篇

万字详述：上半年最值得关注的大新品丨海外篇

奇安信申请对象的内存计算相关专利，可实现更细粒度的内存检测

清华大学申请基于李群建模的综合导航系统相关专利，提高导航系统性能

最近发表

热门文章