Google Gemini

Google Gemini

Google正试图以其旗舰生成式AI模型、应用程序和服务套件Gemini掀起波澜。

那么,Gemini是什么?你如何使用它?它与竞争对手相比如何?

为了更容易跟上最新的Gemini发展,我们制作了这个便利指南,我们会随着新的Gemini模型、功能以及有关Google对Gemini计划的新闻发布而不断更新。

Gemini是什么?
Gemini是谷歌长期承诺的下一代GenAI模型家族,由谷歌的AI研究实验室DeepMind和谷歌研究开发。它有三种不同版本:

Gemini Ultra,性能最强的Gemini模型。
Gemini Pro,一种“轻量级”Gemini模型。
Gemini Nano,一种较小的“提炼”模型,可在像Pixel 8 Pro这样的移动设备上运行。

所有的Gemini模型都经过训练,能够“本地多模态”——换句话说,能够使用并处理不仅仅是文字的内容。它们在各种音频、图像和视频、大量的代码库和不同语言的文本上进行了预训练和微调。

这使得Gemini与诸如谷歌自己的LaMDA等模型有所区别,后者仅在文本数据上进行了训练。LaMDA除了文本(例如,论文、电子邮件草稿)之外无法理解或生成任何其他内容,但Gemini模型并非如此。

Gemini apps和Gemini models之间有什么区别?

谷歌再次证明了它缺乏品牌营销的天赋,从一开始并没有明确表示Gemini与网络和移动端的Gemini应用(原名Bard)是独立而不同的。Gemini应用仅仅是一种通过它可以访问某些Gemini模型的界面——可以将其看作是谷歌的GenAI的客户端。

顺便说一句,Gemini apps和models与Imagen 2完全独立,后者是谷歌在一些公司的开发工具和环境中提供的文本到图像模型。

Gemini能做什么?
由于Gemini模型是多模态的,它们理论上可以执行一系列多模态任务,从转录语音到为图像和视频加标题,再到生成艺术品。其中一些功能已经达到了产品阶段(稍后详细介绍),谷歌承诺将在不久的将来实现所有这些功能以及更多功能。

当然,相信公司的话有点困难。

谷歌在最初推出Bard时严重失误。最近,它发布了一个声称展示了Gemini能力的视频,结果被证明是经过严重篡改的,更多地是抱负。

然而,假设谷歌在其声明中多多少少是诚实的,这是Gemini各个层次能够实现的:

Gemini Ultra
谷歌表示,由于其多模态性,Gemini Ultra可以用于帮助解决物理作业等问题,逐步解决工作表上的问题,并指出已填写答案中可能存在的错误。

谷歌还表示,Gemini Ultra也可以应用于识别与特定问题相关的科学论文,从这些论文中提取信息并通过生成必要的公式来“更新”图表,以便用更新的数据重新创建图表。

正如前文所述,Gemini Ultra从技术上支持图像生成。但这种能力尚未包含在模型的产品化版本中——也许是因为这种机制比应用程序(如ChatGPT)生成图像的方式更复杂。与ChatGPT的情况类似,Gemini不是将提示输入到图像生成器中(如DALL-E 3),而是“本地”输出图像,没有中间步骤。

通过Vertex AI,谷歌的全面托管的AI开发平台,以及AI Studio,谷歌的面向应用程序和平台开发人员的基于Web的工具,Gemini Ultra可以作为API使用。它还为Gemini应用提供动力——但不是免费的。通过谷歌称为Gemini Advanced的方式访问Gemini Ultra需要订阅谷歌One AI Premium计划,价格为每月20美元。

AI Premium计划还将Gemini与您的更广泛的Google Workspace帐户连接起来——比如Gmail中的电子邮件、Docs中的文档、Sheets中的演示文稿和Google Meet的录音。这对于总结电子邮件或在视频通话期间让Gemini捕捉笔记非常有用。

Gemini Pro
谷歌表示,Gemini Pro在推理、规划和理解能力方面比LaMDA有所改进。

卡内基梅隆大学和BerriAI研究人员进行的一项独立研究发现,Gemini Pro的初始版本确实比OpenAI的GPT-3.5更擅长处理更长、更复杂的推理链。但该研究还发现,与所有大型语言模型一样,这个版本的Gemini Pro在涉及多位数的数学问题上特别困难,用户发现存在错误的推理和明显的错误案例。

然而,谷歌承诺会解决这些问题——首个解决方案以Gemini 1.5 Pro的形式出现。

Gemini 1.5 Pro 旨在作为直接替代品,与前身相比在多个方面进行了改进,其中最重要的是它可以处理的数据量。Gemini 1.5 Pro可以处理约700,000个单词或约30,000行代码——是Gemini 1.0 Pro处理量的35倍。并且——考虑到这个模型是多模态的——它不仅限于文本。Gemini 1.5 Pro可以分析多达11小时的音频或一小时的视频,使用各种不同的语言,尽管速度较慢(例如,在一小时视频中搜索一个场景需要30秒到一分钟的处理时间)。

Gemini 1.5 Pro于四月在Vertex AI中公开预览。

另一个端点,Gemini Pro Vision,可以处理文本和图像——包括照片和视频——并输出类似于OpenAI的GPT-4 with Vision模型的文本。

在Vertex AI中,开发人员可以使用微调或“grounding”过程将Gemini Pro定制到特定的上下文和用例。Gemini Pro还可以连接到外部的第三方API,执行特定的操作。

在AI Studio中,有用Gemini Pro创建结构化聊天提示的工作流程。开发人员可以访问Gemini Pro和Gemini Pro Vision端点,并调整模型温度以控制输出的创造性范围,并提供示例以提供语调和风格说明,并调整安全设置。

Gemini Nano
Gemini Nano是Gemini Pro和Ultra模型的一个更小的版本,它足够高效,可以直接在一些手机上运行,而不是将任务发送到某个服务器上。到目前为止,它在Pixel 8 Pro、Pixel 8和三星Galaxy S24上支持几个功能,包括Recorder中的摘要和Gboard中的智能回复。

Recorder app程序允许用户按下按钮录制和转录音频,并包含您录制的对话、采访、演示文稿和其他片段的Gemini驱动摘要。即使用户没有信号或Wi-Fi连接,他们也可以获取这些摘要——而且出于隐私考虑,在这个过程中不会有任何数据离开他们的手机。

Gemini Nano还在Gboard中,谷歌的键盘应用程序中。在那里,它支持一个名为智能回复的功能,当您在消息应用中进行对话时,它会帮助推荐您下一步想要说的话。谷歌表示,该功能最初只与WhatsApp配合使用,但随着时间的推移将会逐渐应用到更多的应用程序中。

而且,在支持的设备上的Google Messages应用中,Nano启用了Magic Compose功能,可以以“激动的”、“正式的”和“抒情的”风格撰写消息。

Gemini是否比OpenAI的GPT-4更好?
谷歌多次宣称Gemini在基准测试中的优越性,声称Gemini Ultra在“32个广泛使用的大型语言模型研究和开发中使用的32个学术基准测试中的30个”上超过了当前的最先进结果。公司表示,与Gemini Ultra相比,Gemini 1.5 Pro在总结内容、头脑风暴和写作等任务方面更具能力;可以预期,随着下一个Ultra模型的发布,这种情况将发生改变。

但是,撇开基准测试是否真正表明了一个更好的模型这个问题不谈,谷歌所指的分数似乎只比OpenAI对应的模型稍微好一点。而且——正如前文所提到的——一些早期印象并不好,用户和学者指出,Gemini Pro的旧版本倾向于错误地理解基本事实,翻译困难,给出不良的编码建议。

Gemini的成本是多少?
Gemini 1.5 Pro在Gemini应用中免费使用,目前在AI Studio和Vertex AI中也是免费的。

然而,一旦Gemini 1.5 Pro退出Vertex的预览,模型将以每字符0.0025美元的价格收费,输出则以每字符0.00005美元的价格收费。Vertex客户按照每1000个字符(约140到250个单词)支付费用,对于像Gemini Pro Vision这样的模型,还会按照每个图像收费(0.0025美元)。

假设一个500字的文章包含2000个字符。使用Gemini 1.5 Pro总结这篇文章的成本将是5美元。与此类似长度的文章的生成成本将是0.1美元。

Ultra的定价尚未公布。

你可以在哪里尝试Gemini?
Gemini Pro
体验Gemini Pro最简单的地方是在Gemini应用中。Pro和Ultra正在以多种语言回答查询。

Gemini Pro和Ultra也可以通过API在Vertex AI中预览访问。目前,该API在某些地区免费使用,支持某些功能,包括欧洲地区,以及聊天功能和过滤功能。

此外,Gemini Pro和Ultra还可以在AI Studio中找到。使用该服务,开发人员可以迭代提示和基于Gemini的聊天机器人,然后获得API密钥以在其应用中使用它们——或者将代码导出到更全功能的IDE中。

代码助手(原名开发者的Duet AI),谷歌用于代码完成和生成的一套AI辅助工具,正在使用Gemini模型。开发人员可以执行跨代码库的“大规模”更改,例如更新跨文件的依赖关系和审查大量代码。

谷歌将Gemini模型引入了其Chrome和Firebase移动开发平台的开发工具,以及其数据库创建和管理工具。并且,它推出了由Gemini支持的新安全产品,例如威胁情报中的Gemini,这是谷歌Mandiant网络安全平台的一个组件,可以分析大量潜在恶意代码,并让用户对正在进行的威胁或妥协指标进行自然语言搜索。

Gemini Nano
Gemini Nano目前支持Pixel 8 Pro、Pixel 8和三星Galaxy S24,并将来会应用到其他设备上。有兴趣将该模型整合到其Android应用程序中的开发人员可以申请先睹为快。

Gemini会登陆iPhone吗?
可能会!据报道,苹果和谷歌正在就将Gemini用于今年晚些时候即将推出的iOS更新中的一些功能进行讨论。尽管还没有确定的消息,但苹果据称还在与OpenAI进行谈判,并一直致力于开发自己的GenAI能力。

发表评论