我们常说十年磨一剑,在 AI 时代这个十年恐怕也要加速了。OpenAI 发布 ChatGPT 都已经 1 年了,市面上一直没有与它匹敌的产品。尽管 Google 随后推出了 Bard,但是表现并不尽如人意。 终于,在 1 年后,谷歌推出了自己有史以来最强大、最通用的 AI 大模型 Gemini(双子座)♊。
Gemini 简介 #
Gemini 是 Google 各团队大规模协作的结果。它是从头开始构建的多模态,这意味着它可以概括和无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。
Gemini 是迄今为止最灵活的型号,能够在从数据中心到移动设备的所有设备上高效运行。其最先进的功能将显著增强开发人员和企业客户使用 AI 构建和扩展的方式。
Gemini 特点 #
以往创建多模态大模型的方法,通常是为不同的模态训练单独的组件,然后将它们拼接在一起,大致模拟其中的一些功能。这些模型有时可以很好地执行某些任务,例如描述图像,但在更概念化和复杂的推理方面会遇到困难。我们看到 OpenAI 的产品要么是聊天,要么是作图,要么是做视频。聊天过程中生产图片,读取图片内容等功能也都是最近没多久才有的功能。
而谷歌 Gemini 背后技术的杀手锏,便是原生多模态(natively multimodal),从一开始就对不同的模态进行预训练。然后,我们用额外的多模态数据对其进行了微调,以进一步完善其有效性。这有助于 Gemini 从头开始无缝地理解和推理各种输入,远远优于现有的多模态模型——而且它的功能在几乎每个领域都是最先进的。这一比高下立判,CPT-4 在 Gemini 面前岂不是只弟弟?🤭
Gemini 1.0 经过训练,可以同时识别和理解文本、图像、音频等,因此它可以更好地理解细微的信息,并可以回答与复杂主题相关的问题。这使得它特别擅长解释数学和物理等复杂学科的推理。不仅如此,Gemini 还可以理解、解释和生成世界上最流行的编程语言(如 Python、Java、C++ 和 Go)的高质量代码。它能够跨语言工作并推理复杂信息,使其成为世界上领先的编码基础模型之一。
Gemini 有三个不同的版本 👇:
- ✅Gemini Ultra — 最大、最强大的型号,适用于高度复杂的任务。
- ✅Gemini Pro — 用于扩展各种任务的最佳型号。
- ✅Gemini Nano — 适用于最高效的设备端任务模型。
其中 Gemini Ultra 一上来就在 32 个基准测试中拿下 30 个 SOTA,并且第一个在 MMLU 基准上达到人类专家水平。而 Gemini Pro,已经在 Bard 中实装上线。
Gemini 双子座时代来临 #
每一次技术变革都是推进科学发现、加速人类进步和改善生活的机会。我相信,我们现在看到的人工智能转型将是我们有生之年最深刻的,远远大于之前向移动或网络的转变。人工智能有可能为世界各地的人们创造机会——从日常到非凡。它将带来新的创新和经济进步浪潮,并以前所未有的规模推动知识、学习、创造力和生产力。
大模型也终于要进入百家争鸣的时代了,这对于技术的进步是极大的好事。竞争有助于加速技术的进步,其次是竞争可以降低我们的消费成本,毕竟你家贵我可能就去别家了。哈哈哈 😆