Gemini

Gemini 是谷歌公司开发的一款人工智能模型。

模型亮点：

原生多模态：从设计之初就原生支持多模态，能够处理不同形式的数据，如语言、听力、视觉等。一开始就在不同模态上进行预训练，利用额外的多模态数据进行微调以提升有效性。

多种规格：谷歌针对 Gemini（1.0）优化了三个不同体量的模型，分别是 Gemini Ultra、Gemini Pro 和 Gemini Nano，可应用于不同的场景。其中，Gemini Ultra 能力最强，可在各种高度复杂的任务（包括推理和多模态任务）中提供先进的性能，它计划于2024年在 Bard 中推出，并通过云 API 提供服务，目标是击败 ChatGPT 4.0；Gemini Pro 是在成本和延迟方面性能优化的模型，可在广泛任务范围内提供显著性能，能快速响应并理解复杂查询，旨在击败 ChatGPT 3.5；Gemini Nano 则是用于数码设备的高效模型，目前应用于谷歌智能手机系统，能执行本地任务，例如在聊天应用中建议回复或总结文本等，谷歌训练了两个 Nano 版本，参数分别为18亿（Nano-1）和32.5亿（Nano-2），分别针对低内存和高内存设备。

强大的功能：

复杂推理能力：有助于理解复杂的书面和视觉信息，能够从海量数据中提取知识，对数学和物理等复杂学科的问题进行推理。

识别与理解能力：采用 Transformer 架构和高效的 Attention 机制，可以同时识别和理解文本、图像、音频等多种信息。在图像基准方面，Gemini Ultra 无需对象字符识别（OCR）系统的帮助即可从图像中提取文本；在视频理解方面，它通过将视频编码为一系列帧来完成，视频帧或图形可与文本或音频自然交织。

高级编码能力：可以理解、解释和生成流行编程语言（如 Python、Java、C++和 Go）的高质量代码，例如，Alphacode 团队构建的 Alphacode2，将 Gemini 的推理能力与搜索和工具使用相结合，解决了竞争性编程问题，在 Codeforces 竞争性编程平台上排名进入前15%。

内置自研芯片：内置了谷歌自研 AI 超算芯片 Cloud TPU v5p，TPU 是谷歌为神经网络设计的专用芯片，经过优化可加快机器学习模型的训练和推断速度。与 TPU v4相比，TPU v5p 的浮点运算性能提升了两倍，在高带宽内存方面提高了3倍。它能够提供459 teraflops（每秒可执行459万亿次浮点运算）的 bfloat16（16位浮点数格式）性能或918 teraops（每秒可执行918万亿次整数运算）的 int8（执行8位整数）性能，支持95GB 的高带宽内存，能够以2.76TB/s 的速度传输数据。

全面的安全性评估：拥有全面的安全性评估，包括偏差和病毒等。谷歌应用了对抗性测试技术，依据自身的 AI 原则和严格的产品安全政策，增加新的保护措施，全面考虑潜在风险，并在开发的每个阶段进行测试和降低风险。此外，谷歌与外部专家合作进行压力测试以确保内容安全，并建立了专门的安全分类器来识别和过滤有害内容。Gemini Nano 可以在使用特殊芯片的终端设备上运行，在无网络连接的情况下也可使用，不会造成个人数据丢失。

持续升级：2024年2月15日，谷歌发布了 Gemini 1.5；5月15日，谷歌更新升级了 Gemini 1.5 Pro 版本，同时推出了 Gemini 1.5 Flash 轻量化小模型。Gemini 1.5 Pro 升级到200万 tokens，并全面支持 Workspace，还会面向全球开发者开放。此外，谷歌还宣布推出基于 Gemini 1.5 Pro 的 Gemini Advanced，它可以处理多个大型文档（总计最多1500页）或汇总100封电子邮件，同时支持35多种语言和150多个国家及地区。

Gemini 的发展历程：

2023年4月，Alphabet（谷歌母公司）首席执行官桑达尔·皮查伊合并了两个大型人工智能团队，开启 OpenAI 计划。
2023年5月，谷歌在开发者大会上透露正在开发 AI 大模型 Gemini。
2023年8月，谷歌在其面向印度和日本用户的搜索工具中引入了生成式人工智能。
2023年9月15日，有报道称谷歌已向少数公司开放了其对话式人工智能软件 Gemini 的早期版本。
2023年12月6日，Gemini 初始版本在谷歌的聊天机器人 Bard 中推出，同时优化推出 Gemini 1.0 版本，包括三种不同规格的套件：Gemini Ultra、Gemini Pro 和 Gemini Nano。Pixel 引入了 Gemini，搭载了 Gemini Nano 的 Pixel 8 Pro 支持“录音机”应用中的“总结”等新功能，并在 Gboard 中推出“智能回复”功能。
2024年2月15日，谷歌发布 Gemini 1.5。其首个登场的多模态通用模型 Gemini 1.5 Pro，可以把稳定处理上下文的上限扩大至100万 tokens，并且是在 Kalamang 语翻译至英语的测试中表现最好的模型。
2024年5月15日，谷歌更新升级 Gemini 1.5 Pro 版本，同时推出 Gemini 1.5 Flash 轻量化小模型。

这些只是 Gemini 的一些主要特点和发展情况，随着技术的不断进步和更新，它的功能和性能可能还会有所提升和扩展。