AI

如何构建有效的代理

Over the past year, we’ve worked with dozens of teams building large language model (LLM) agents across industries. Consistently, the most successful implementations weren’t using complex frameworks or specialized libraries. Instead, they were building with simple, composable patterns.

过去一年,我们与数十个团队合作,构建了跨行业的LLM大型语言模型代理。始终如一的是,最成功的实现并没有使用复杂的框架或专门的库。相反,他们使用简单、可组合的模式进行构建。

In this post, we share what we’ve learned from working with our customers and building agents ourselves, and give practical advice for developers on building effective agents.

在这篇文章中,我们将分享我们从与客户合作和构建代理的过程中学到的知识,并为开发者提供构建有效代理的实用建议。

What are agents? 代理是什么?

“Agent” can be defined in several ways. Some customers define agents as fully autonomous systems that operate independently over extended periods, using various tools to accomplish complex tasks. Others use the term to describe more prescriptive implementations that follow predefined workflows. At Anthropic, we categorize all these variations as agentic systems, but draw an important architectural distinction between workflows and agents:

Astra 项目:在现实世界中使用多模式理解的代理

自从我们在 I/O 大会上推出Project Astra以来,我们一直在向在 Android 手机上使用 Project Astra 的可靠测试人员学习。他们的宝贵反馈帮助我们更好地了解通用 AI 助手在实践中如何发挥作用,包括对安全和道德的影响。使用 Gemini 2.0 构建的最新版本的改进包括:

  • 更好的对话: Project Astra 现在能够使用多种语言和混合语言进行交谈,并且能够更好地理解口音和不常见的单词。
  • 新工具用途:借助 Gemini 2.0,Project Astra 可以使用 Google 搜索、镜头和地图,使其作为您日常生活中的助手更加有用。
  • 更好的记忆:我们改进了 Project Astra 的记忆能力,同时让您掌控一切。它现在拥有长达 10 分钟的会话记忆,可以记住您过去与其进行的更多对话,因此可以更好地为您量身定制。
  • 改善延迟:借助新的流媒体功能和本机音频理解,代理可以以与人类对话相同的延迟理解语言。

我们正在努力将这些功能引入 Google 产品,例如Gemini应用、我们的 AI 助手,以及眼镜等其他设备。我们正开始将我们的可信测试者计划扩展到更多人,其中包括一个即将开始在原型眼镜上测试 Project Astra 的小组。

原文:Google Blog

Gemini 2.0简介

Gemini 2.0 Flash

Gemini 2.0 Flash 以 1.5 Flash 的成功为基础,这是我们目前最受开发者欢迎的版本,在同样快速的响应时间下具有增强的性能。值得注意的是,2.0 Flash 在关键基准测试中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的两倍。2.0 Flash 还具有新功能。除了支持图像、视频和音频等多模式输入外,2.0 Flash 现在还支持多模式输出,例如与文本混合的原生生成的图像和可操纵的文本转语音 (TTS) 多语言音频。它还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。

model compare

我们的目标是将我们的模型安全快速地交到人们手中。过去一个月,我们一直在分享 Gemini 2.0 的早期实验版本,并得到了开发人员的积极反馈。

Gemini 2.0 Flash 现已作为实验模型通过Google AI Studio和Vertex AI中的 Gemini API 向开发者提供,所有开发者均可使用多模式输入和文本输出,早期合作伙伴可使用文本转语音和原生图像生成功能。1 月份将全面上市,同时将推出更多模型尺寸。

为了帮助开发人员构建动态和交互式应用程序,我们还发布了新的 Multimodal Live API,它具有实时音频、视频流输入以及使用多个组合工具的能力。有关 2.0 Flash 和 Multimodal Live API 的更多信息,请参阅我们的开发人员博客。

我们的 AI 助手 Gemini 应用程序中提供 Gemini 2.0 此外,从今天开始,全球Gemini用户可以通过在桌面和移动网络上的模型下拉菜单中选择聊天优化版 2.0 Flash 实验版来访问该版本,该版本将很快在 Gemini 移动应用中推出。借助这一新模型,用户可以体验到更加实用的 Gemini 助手。

明年初,我们将把 Gemini 2.0 扩展到更多 Google 产品。