大模型

Astra 项目:在现实世界中使用多模式理解的代理

自从我们在 I/O 大会上推出Project Astra以来,我们一直在向在 Android 手机上使用 Project Astra 的可靠测试人员学习。他们的宝贵反馈帮助我们更好地了解通用 AI 助手在实践中如何发挥作用,包括对安全和道德的影响。使用 Gemini 2.0 构建的最新版本的改进包括:

  • 更好的对话: Project Astra 现在能够使用多种语言和混合语言进行交谈,并且能够更好地理解口音和不常见的单词。
  • 新工具用途:借助 Gemini 2.0,Project Astra 可以使用 Google 搜索、镜头和地图,使其作为您日常生活中的助手更加有用。
  • 更好的记忆:我们改进了 Project Astra 的记忆能力,同时让您掌控一切。它现在拥有长达 10 分钟的会话记忆,可以记住您过去与其进行的更多对话,因此可以更好地为您量身定制。
  • 改善延迟:借助新的流媒体功能和本机音频理解,代理可以以与人类对话相同的延迟理解语言。

我们正在努力将这些功能引入 Google 产品,例如Gemini应用、我们的 AI 助手,以及眼镜等其他设备。我们正开始将我们的可信测试者计划扩展到更多人,其中包括一个即将开始在原型眼镜上测试 Project Astra 的小组。

原文:Google Blog

Gemini 2.0简介

Gemini 2.0 Flash

Gemini 2.0 Flash 以 1.5 Flash 的成功为基础,这是我们目前最受开发者欢迎的版本,在同样快速的响应时间下具有增强的性能。值得注意的是,2.0 Flash 在关键基准测试中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的两倍。2.0 Flash 还具有新功能。除了支持图像、视频和音频等多模式输入外,2.0 Flash 现在还支持多模式输出,例如与文本混合的原生生成的图像和可操纵的文本转语音 (TTS) 多语言音频。它还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。

model compare

我们的目标是将我们的模型安全快速地交到人们手中。过去一个月,我们一直在分享 Gemini 2.0 的早期实验版本,并得到了开发人员的积极反馈。

Gemini 2.0 Flash 现已作为实验模型通过Google AI Studio和Vertex AI中的 Gemini API 向开发者提供,所有开发者均可使用多模式输入和文本输出,早期合作伙伴可使用文本转语音和原生图像生成功能。1 月份将全面上市,同时将推出更多模型尺寸。

为了帮助开发人员构建动态和交互式应用程序,我们还发布了新的 Multimodal Live API,它具有实时音频、视频流输入以及使用多个组合工具的能力。有关 2.0 Flash 和 Multimodal Live API 的更多信息,请参阅我们的开发人员博客。

我们的 AI 助手 Gemini 应用程序中提供 Gemini 2.0 此外,从今天开始,全球Gemini用户可以通过在桌面和移动网络上的模型下拉菜单中选择聊天优化版 2.0 Flash 实验版来访问该版本,该版本将很快在 Gemini 移动应用中推出。借助这一新模型,用户可以体验到更加实用的 Gemini 助手。

明年初,我们将把 Gemini 2.0 扩展到更多 Google 产品。

Gemini API 快速入门

安装 Gemini API 库

pip install -q -U google-generativeai

第一个程序

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-1.5-flash")
response = model.generate_content("Explain how AI works")
print(response.text)