谷歌周三发布了面向消费者和企业的多模态人工智能工具套件 “双子座”(Gemini),震惊了科技界。
在大举进军人工智能的科技巨头中,搜索巨头谷歌似乎游走在中间地带,微软支持的 OpenAI 将 ChatGPT 推向了 Turbo,Vision 和 Anthropic 则升级了 Claude。今天,谷歌推出了三个版本的 Gemini–Nano、Pro 和 Ultra,它们可以无缝理解和整合文本、图像、音频和视频。
Gemini似乎有望超越OpenAI的顶级人工智能模型,OpenAI刚刚发布了一系列新功能,但不久就被公司的阴谋所掩盖。
Gemini Ultra 是最先进的版本,在几项流行的基准测试中取得了优异的成绩,在某些情况下甚至超过了人类的表现。例如,在横跨多个学科的 MMLU 考试中,它在 32 项基准测试中的 30 项上都创造了新纪录。
双子座的一个主要特点是它的 “原生多模态 “训练,允许它将文本、图像和音频等多种数据类型作为输入和输出进行处理。这种方法意味着模型是从零开始建立和训练的,以理解不同的输入,而不是后来将离散的模式和模块整合在一起的结果。
当今最流行的多模态人工智能都遵循后一种路线图。例如,ChatGPT 结合了 GPT-4 Turbo 和 Dall-E 3 来处理文本以生成图像,结合了 GPT-4 Vision 来处理图像,还结合了一个特殊的编码模块来进行计算。因此,LLM 只能充当不同人工智能模型之间的协调者,无法独立理解特定问题的全部本质。
这种限制还可能导致提示注入等漏洞。例如,通过在纸上书写或打印文本提示、拍照并要求视觉模块进行处理,从而规避文本提示安全控制的技术。
与此相反,双子座的早期定性评估显示,它具有出色的跨模态推理能力。例如,在教育环境中,双子座可以理解复杂的物理问题,将其转换为数学公式,并提供正确的解决方案。这种能力为教育和其他领域开辟了变革之路。
传统的 LLM 通常不擅长数学,因此 Gemini 系列多模态 LLM 的推理能力值得关注。
在另一项以多模态语言理解为重点的基准测试中,Gemini Ultra 的准确率超过了 90%,超过了其他现有模型。谷歌称,人类偏好测试也显示,在创意写作等领域,Gemini 比 PaLM 2 等模型更受青睐。
较小的服务 Gemini Nano 专为提高设备效率而设计,在总结、阅读理解和各种推理任务中表现出色。尽管 Gemini Nano 的尺寸较小,但与较大的 Gemini Pro 型号相比,Gemini Nano 表现出了卓越的性能。这意味着,Gemini 可能会成为能够或必须离线工作的移动助手的首选人工智能。
无论从哪个角度看,Gemini 的首次亮相都非常强劲。而且,随着谷歌人工智能能力的不断提高,其多功能性还将为许多领域带来新的应用。不过,就目前而言,要确定其实际性能水平,还需要进一步的实际测试。
用户今天就可以通过 Bard 测试微调版的 Gemini Pro。Gemini Ultra将于明年在谷歌名为Bard Advanced的新版聊天机器人中发布。谷歌最终预计将以 170 多种不同语言推出双子座,并利用该技术为其 Pixel 系列和搜索生成体验提供支持。