Google Gemini

Google正试图以其旗舰生成式AI模型、应用程序和服务套件Gemini掀起波澜。

那么，Gemini是什么？你如何使用它？它与竞争对手相比如何？

为了更容易跟上最新的Gemini发展，我们制作了这个便利指南，我们会随着新的Gemini模型、功能以及有关Google对Gemini计划的新闻发布而不断更新。

Gemini是什么？
Gemini是谷歌长期承诺的下一代GenAI模型家族，由谷歌的AI研究实验室DeepMind和谷歌研究开发。它有三种不同版本：

Gemini Ultra，性能最强的Gemini模型。
Gemini Pro，一种“轻量级”Gemini模型。
Gemini Nano，一种较小的“提炼”模型，可在像Pixel 8 Pro这样的移动设备上运行。

所有的Gemini模型都经过训练，能够“本地多模态”——换句话说，能够使用并处理不仅仅是文字的内容。它们在各种音频、图像和视频、大量的代码库和不同语言的文本上进行了预训练和微调。

这使得Gemini与诸如谷歌自己的LaMDA等模型有所区别，后者仅在文本数据上进行了训练。LaMDA除了文本（例如，论文、电子邮件草稿）之外无法理解或生成任何其他内容，但Gemini模型并非如此。

Gemini apps和Gemini models之间有什么区别？

谷歌再次证明了它缺乏品牌营销的天赋，从一开始并没有明确表示Gemini与网络和移动端的Gemini应用（原名Bard）是独立而不同的。Gemini应用仅仅是一种通过它可以访问某些Gemini模型的界面——可以将其看作是谷歌的GenAI的客户端。

顺便说一句，Gemini apps和models与Imagen 2完全独立，后者是谷歌在一些公司的开发工具和环境中提供的文本到图像模型。

Gemini能做什么？
由于Gemini模型是多模态的，它们理论上可以执行一系列多模态任务，从转录语音到为图像和视频加标题，再到生成艺术品。其中一些功能已经达到了产品阶段（稍后详细介绍），谷歌承诺将在不久的将来实现所有这些功能以及更多功能。

当然，相信公司的话有点困难。

谷歌在最初推出Bard时严重失误。最近，它发布了一个声称展示了Gemini能力的视频，结果被证明是经过严重篡改的，更多地是抱负。

然而，假设谷歌在其声明中多多少少是诚实的，这是Gemini各个层次能够实现的：

Gemini Ultra
谷歌表示，由于其多模态性，Gemini Ultra可以用于帮助解决物理作业等问题，逐步解决工作表上的问题，并指出已填写答案中可能存在的错误。

谷歌还表示，Gemini Ultra也可以应用于识别与特定问题相关的科学论文，从这些论文中提取信息并通过生成必要的公式来“更新”图表，以便用更新的数据重新创建图表。

正如前文所述，Gemini Ultra从技术上支持图像生成。但这种能力尚未包含在模型的产品化版本中——也许是因为这种机制比应用程序（如ChatGPT）生成图像的方式更复杂。与ChatGPT的情况类似，Gemini不是将提示输入到图像生成器中（如DALL-E 3），而是“本地”输出图像，没有中间步骤。

通过Vertex AI，谷歌的全面托管的AI开发平台，以及AI Studio，谷歌的面向应用程序和平台开发人员的基于Web的工具，Gemini Ultra可以作为API使用。它还为Gemini应用提供动力——但不是免费的。通过谷歌称为Gemini Advanced的方式访问Gemini Ultra需要订阅谷歌One AI Premium计划，价格为每月20美元。

AI Premium计划还将Gemini与您的更广泛的Google Workspace帐户连接起来——比如Gmail中的电子邮件、Docs中的文档、Sheets中的演示文稿和Google Meet的录音。这对于总结电子邮件或在视频通话期间让Gemini捕捉笔记非常有用。

Gemini Pro
谷歌表示，Gemini Pro在推理、规划和理解能力方面比LaMDA有所改进。

卡内基梅隆大学和BerriAI研究人员进行的一项独立研究发现，Gemini Pro的初始版本确实比OpenAI的GPT-3.5更擅长处理更长、更复杂的推理链。但该研究还发现，与所有大型语言模型一样，这个版本的Gemini Pro在涉及多位数的数学问题上特别困难，用户发现存在错误的推理和明显的错误案例。

然而，谷歌承诺会解决这些问题——首个解决方案以Gemini 1.5 Pro的形式出现。

Gemini 1.5 Pro 旨在作为直接替代品，与前身相比在多个方面进行了改进，其中最重要的是它可以处理的数据量。Gemini 1.5 Pro可以处理约700,000个单词或约30,000行代码——是Gemini 1.0 Pro处理量的35倍。并且——考虑到这个模型是多模态的——它不仅限于文本。Gemini 1.5 Pro可以分析多达11小时的音频或一小时的视频，使用各种不同的语言，尽管速度较慢（例如，在一小时视频中搜索一个场景需要30秒到一分钟的处理时间）。

Gemini 1.5 Pro于四月在Vertex AI中公开预览。

另一个端点，Gemini Pro Vision，可以处理文本和图像——包括照片和视频——并输出类似于OpenAI的GPT-4 with Vision模型的文本。

在Vertex AI中，开发人员可以使用微调或“grounding”过程将Gemini Pro定制到特定的上下文和用例。Gemini Pro还可以连接到外部的第三方API，执行特定的操作。

在AI Studio中，有用Gemini Pro创建结构化聊天提示的工作流程。开发人员可以访问Gemini Pro和Gemini Pro Vision端点，并调整模型温度以控制输出的创造性范围，并提供示例以提供语调和风格说明，并调整安全设置。

Gemini Nano
Gemini Nano是Gemini Pro和Ultra模型的一个更小的版本，它足够高效，可以直接在一些手机上运行，而不是将任务发送到某个服务器上。到目前为止，它在Pixel 8 Pro、Pixel 8和三星Galaxy S24上支持几个功能，包括Recorder中的摘要和Gboard中的智能回复。

Recorder app程序允许用户按下按钮录制和转录音频，并包含您录制的对话、采访、演示文稿和其他片段的Gemini驱动摘要。即使用户没有信号或Wi-Fi连接，他们也可以获取这些摘要——而且出于隐私考虑，在这个过程中不会有任何数据离开他们的手机。

Gemini Nano还在Gboard中，谷歌的键盘应用程序中。在那里，它支持一个名为智能回复的功能，当您在消息应用中进行对话时，它会帮助推荐您下一步想要说的话。谷歌表示，该功能最初只与WhatsApp配合使用，但随着时间的推移将会逐渐应用到更多的应用程序中。

而且，在支持的设备上的Google Messages应用中，Nano启用了Magic Compose功能，可以以“激动的”、“正式的”和“抒情的”风格撰写消息。

Gemini是否比OpenAI的GPT-4更好？
谷歌多次宣称Gemini在基准测试中的优越性，声称Gemini Ultra在“32个广泛使用的大型语言模型研究和开发中使用的32个学术基准测试中的30个”上超过了当前的最先进结果。公司表示，与Gemini Ultra相比，Gemini 1.5 Pro在总结内容、头脑风暴和写作等任务方面更具能力；可以预期，随着下一个Ultra模型的发布，这种情况将发生改变。

但是，撇开基准测试是否真正表明了一个更好的模型这个问题不谈，谷歌所指的分数似乎只比OpenAI对应的模型稍微好一点。而且——正如前文所提到的——一些早期印象并不好，用户和学者指出，Gemini Pro的旧版本倾向于错误地理解基本事实，翻译困难，给出不良的编码建议。

Gemini的成本是多少？
Gemini 1.5 Pro在Gemini应用中免费使用，目前在AI Studio和Vertex AI中也是免费的。

然而，一旦Gemini 1.5 Pro退出Vertex的预览，模型将以每字符0.0025美元的价格收费，输出则以每字符0.00005美元的价格收费。Vertex客户按照每1000个字符（约140到250个单词）支付费用，对于像Gemini Pro Vision这样的模型，还会按照每个图像收费（0.0025美元）。

假设一个500字的文章包含2000个字符。使用Gemini 1.5 Pro总结这篇文章的成本将是5美元。与此类似长度的文章的生成成本将是0.1美元。

Ultra的定价尚未公布。

你可以在哪里尝试Gemini？
Gemini Pro
体验Gemini Pro最简单的地方是在Gemini应用中。Pro和Ultra正在以多种语言回答查询。

Gemini Pro和Ultra也可以通过API在Vertex AI中预览访问。目前，该API在某些地区免费使用，支持某些功能，包括欧洲地区，以及聊天功能和过滤功能。

此外，Gemini Pro和Ultra还可以在AI Studio中找到。使用该服务，开发人员可以迭代提示和基于Gemini的聊天机器人，然后获得API密钥以在其应用中使用它们——或者将代码导出到更全功能的IDE中。

代码助手（原名开发者的Duet AI），谷歌用于代码完成和生成的一套AI辅助工具，正在使用Gemini模型。开发人员可以执行跨代码库的“大规模”更改，例如更新跨文件的依赖关系和审查大量代码。

谷歌将Gemini模型引入了其Chrome和Firebase移动开发平台的开发工具，以及其数据库创建和管理工具。并且，它推出了由Gemini支持的新安全产品，例如威胁情报中的Gemini，这是谷歌Mandiant网络安全平台的一个组件，可以分析大量潜在恶意代码，并让用户对正在进行的威胁或妥协指标进行自然语言搜索。

Gemini Nano
Gemini Nano目前支持Pixel 8 Pro、Pixel 8和三星Galaxy S24，并将来会应用到其他设备上。有兴趣将该模型整合到其Android应用程序中的开发人员可以申请先睹为快。

Gemini会登陆iPhone吗？
可能会！据报道，苹果和谷歌正在就将Gemini用于今年晚些时候即将推出的iOS更新中的一些功能进行讨论。尽管还没有确定的消息，但苹果据称还在与OpenAI进行谈判，并一直致力于开发自己的GenAI能力。

Google Gemini

Steven Qiu

发表评论
取消回复

发表评论

Google Gemini

Steven Qiu

发表评论 取消回复

发表评论

发表评论
取消回复