Loading...

Gemini 是谷歌公司开发的一款人工智能模型。

模型亮点:

原生多模态:从设计之初就原生支持多模态,能够处理不同形式的数据,如语言、听力、视觉等。一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性。

多种规格:谷歌针对 Gemini(1.0)优化了三个不同体量的模型,分别是 Gemini Ultra、Gemini Pro 和 Gemini Nano,可应用于不同的场景。其中,Gemini Ultra 能力最强,可在各种高度复杂的任务(包括推理和多模态任务)中提供先进的性能,它计划于2024年在 Bard 中推出,并通过云 API 提供服务,目标是击败 ChatGPT 4.0;Gemini Pro 是在成本和延迟方面性能优化的模型,可在广泛任务范围内提供显著性能,能快速响应并理解复杂查询,旨在击败 ChatGPT 3.5;Gemini Nano 则是用于数码设备的高效模型,目前应用于谷歌智能手机系统,能执行本地任务,例如在聊天应用中建议回复或总结文本等,谷歌训练了两个 Nano 版本,参数分别为18亿(Nano-1)和32.5亿(Nano-2),分别针对低内存和高内存设备。

强大的功能:

复杂推理能力:有助于理解复杂的书面和视觉信息,能够从海量数据中提取知识,对数学和物理等复杂学科的问题进行推理。

识别与理解能力:采用 Transformer 架构和高效的 Attention 机制,可以同时识别和理解文本、图像、音频等多种信息。在图像基准方面,Gemini Ultra 无需对象字符识别(OCR)系统的帮助即可从图像中提取文本;在视频理解方面,它通过将视频编码为一系列帧来完成,视频帧或图形可与文本或音频自然交织。

高级编码能力:可以理解、解释和生成流行编程语言(如 Python、Java、C++和 Go)的高质量代码,例如,Alphacode 团队构建的 Alphacode2,将 Gemini 的推理能力与搜索和工具使用相结合,解决了竞争性编程问题,在 Codeforces 竞争性编程平台上排名进入前15%。

内置自研芯片:内置了谷歌自研 AI 超算芯片 Cloud TPU v5p,TPU 是谷歌为神经网络设计的专用芯片,经过优化可加快机器学习模型的训练和推断速度。与 TPU v4相比,TPU v5p 的浮点运算性能提升了两倍,在高带宽内存方面提高了3倍。它能够提供459 teraflops(每秒可执行459万亿次浮点运算)的 bfloat16(16位浮点数格式)性能或918 teraops(每秒可执行918万亿次整数运算)的 int8(执行8位整数)性能,支持95GB 的高带宽内存,能够以2.76TB/s 的速度传输数据。

全面的安全性评估:拥有全面的安全性评估,包括偏差和病毒等。谷歌应用了对抗性测试技术,依据自身的 AI 原则和严格的产品安全政策,增加新的保护措施,全面考虑潜在风险,并在开发的每个阶段进行测试和降低风险。此外,谷歌与外部专家合作进行压力测试以确保内容安全,并建立了专门的安全分类器来识别和过滤有害内容。Gemini Nano 可以在使用特殊芯片的终端设备上运行,在无网络连接的情况下也可使用,不会造成个人数据丢失。

持续升级:2024年2月15日,谷歌发布了 Gemini 1.5;5月15日,谷歌更新升级了 Gemini 1.5 Pro 版本,同时推出了 Gemini 1.5 Flash 轻量化小模型。Gemini 1.5 Pro 升级到200万 tokens,并全面支持 Workspace,还会面向全球开发者开放。此外,谷歌还宣布推出基于 Gemini 1.5 Pro 的 Gemini Advanced,它可以处理多个大型文档(总计最多1500页)或汇总100封电子邮件,同时支持35多种语言和150多个国家及地区。

Gemini 的发展历程:

  • 2023年4月,Alphabet(谷歌母公司)首席执行官桑达尔·皮查伊合并了两个大型人工智能团队,开启 OpenAI 计划。
  • 2023年5月,谷歌在开发者大会上透露正在开发 AI 大模型 Gemini。
  • 2023年8月,谷歌在其面向印度和日本用户的搜索工具中引入了生成式人工智能。
  • 2023年9月15日,有报道称谷歌已向少数公司开放了其对话式人工智能软件 Gemini 的早期版本。
  • 2023年12月6日,Gemini 初始版本在谷歌的聊天机器人 Bard 中推出,同时优化推出 Gemini 1.0 版本,包括三种不同规格的套件:Gemini Ultra、Gemini Pro 和 Gemini Nano。Pixel 引入了 Gemini,搭载了 Gemini Nano 的 Pixel 8 Pro 支持“录音机”应用中的“总结”等新功能,并在 Gboard 中推出“智能回复”功能。
  • 2024年2月15日,谷歌发布 Gemini 1.5。其首个登场的多模态通用模型 Gemini 1.5 Pro,可以把稳定处理上下文的上限扩大至100万 tokens,并且是在 Kalamang 语翻译至英语的测试中表现最好的模型。
  • 2024年5月15日,谷歌更新升级 Gemini 1.5 Pro 版本,同时推出 Gemini 1.5 Flash 轻量化小模型。

这些只是 Gemini 的一些主要特点和发展情况,随着技术的不断进步和更新,它的功能和性能可能还会有所提升和扩展。

数据统计

相关导航

小猪海外网址导航科学上网工具

暂无评论

暂无评论...