欢迎来到区块链早报官方网站!
首页>>观点 > 正文

最新GPT-4在律考中击败90%人类,它到底强在哪?

区块链早报 发布时间:2023-03-15 21:55:55
热度:129℃

来源:钛媒体

作者:林志佳

图片来源:由无界版图AI工具生成

“码农真的快失业了,编程不存在了。”在今早 GPT-4发布之后,朋友圈刷屏,很多人表达该技术对目前人类生产生活的影响。

GPT-4有多强,GRE考试接近满分,律考比肩顶级律师,随手画个草图就能做出同款网页。当国内还在热议人工智能对话大模型产品ChatGPT时,背后核心预训练模型技术GPT却突然重磅升级。

钛媒体App获悉,北京时间3月15日凌晨,创造出ChatGPT的美国 AI 公司OpenAI 正式对外发布GPT-4。

据悉,GPT-4是新一代多模态大模型,支持图像和文本输入以及正确的文本输出,拥有强大的识图能力,文字输入限制提升至2.5万字,支持多个语言,回答准确性显著提高,从而让新的ChatGPT更聪明。此外,GPT-4还开放了角色扮演和性格定制能力。另外,GPT-4版本还会随着时间进行自动更新。

钛媒体App了解到,OpenAI发布的GPT-4在各种专业学术基准上有着人类水平表现。例如在模拟律师考试中,GPT-4得分约为前10%——击败了90%人类,而ChatGPT背后的GPT-3.5得分约为倒数10%。

“GPT-4 是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人。”OpenAI工程师在开发者Demo视频中表示,GPT-4 是OpenAI努力扩展深度学习的最新里程碑。OpenAI称,GPT-4虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。

微软在GPT-4发布后第一时间表示,新的必应(Bing)已经基于GPT-4 技术运行,这是为搜索产品量身定制的模型产品。“如果你在过去五周内的任何时候使用过新的Bing预览版,你就已经提前了解过这个强大模型的早期版本。随着OpenAl对GPT-4及以后的版本进行更新,Bing 从这些改进中受益匪浅。”

钛媒体App获悉,即日起,ChatGPT Plus付费订阅用户现可直接使用GPT-4版本的ChatGPT,未来则将对免费用户开放一定数量的GPT-4体验。同时,GPT-4 API 需要申请候选名单,今天将开始邀请一些开发人员,并不断扩大邀请规模,每1000字符的价格为0.03美元;图像输入则处在研究预览阶段,仅对少部分用户开放。

不过,GPT-4仍存在改进空间。虽然这次模型大升级,但之前ChatGPT会出现幻觉、“胡说八道”的毛病还是没能在GPT-4中完全改掉。

谁能革得了 ChatGPT 的命?现在看来还是 OpenAI 自己。


花了6个月打造,GPT-4到底强在哪里?


聊GPT-4之前,先要了解GPT到底是什么。

随着1956年“达特茅斯会议”上创造“人工智能”这个术语,全球迎来了 AI 技术发展阶段。在2016年谷歌DeepMind的“阿尔法狗”(AlphaGo)击败了韩国围棋冠军李世乭,以及机器学习的诞生,AI 算法、算力、数据“三驾马车”获得了突破性技术进展。

但问题在于,机器学习利用循环神经网络(RNN) ——序列数据或时序数据的人工神经网络来处理文字,使得文字按顺序一个个处理,没办法同时进行大量学习。

因此2017年,谷歌团队发布论文“Attention Is All You Need”,提出了一个新的学习框架Transformer,以解决此问题。它抛弃了传统的CNN(卷积神经网络)和RNN,使整个网络结构完全由Attention机制组成,从而让机器同时学习大量的文字,训练速度效率大大提升。

简单来说,只需要LLM(大型语言模型)、大型参数量和算力算法训练,以Attention机制就可实现快速的机器学习能力。因此,无论是ChatGPT的T,还是谷歌预训练语言模型BERT的T,均是Transformer的意思。

基于Transformer框架,OpenAI进行了新的研究学习GPT,全称为Generative Pre-trained Transformer(生成式预训练框架),其利用无监督学习技术,通过大量数据来形成快速反馈。2018年6月,OpenAI发布第一代GPT,2019年11月发布GPT-2,2021年发布了1750亿参数量的GPT-3,不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力等,而ChatGPT是微调之后的GPT-3.5消费级应用。

今天发布的GPT-4,是一个大型多模态模型,能接受图像和文本输入,再输出正确的文本回复。OpenAI表示,团队花了6个月的时间使用对抗性测试程序和ChatGPT的经验教训,对GPT-4进行迭代调整,从而在真实性、可控性等方面取得了有史以来最好的结果。

GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。”OpenAI 表示,在过去的两年里,团队重建了整个深度学习堆栈,并与微软Azure一起,为GPT工作负载从头开始共同设计了一台超级计算机。经过训练和修复更新之后,GPT-4前所未有地稳定,成为 OpenAI 能够提前准确预测其训练性能的第一个大型模型。

那么,GPT-4技术到底怎么样?为了了解这模型差异,根据官方实验表明,GPT-4在各种专业测试和学术基准上的表现与人类水平相当。

首先,在美国BAR律师执照统考模拟中,GPT-4得分约为前10%——击败了90%人类,而ChatGPT背后的GPT-3.5得分约为倒数10%;生物奥林匹克竞赛,GPT-3.5能达到后31%水平分位,GPT-4可达到前1%水平分位;研究生入学考试 (GRE) 、SAT数学考试成绩中,也有大幅提升,击败了80%以上的人类答题水平,而医学知识自测考试准确率达75%。

第二个测试是与其他英文机器学习模型的技术能力。研究团队使用微软Azure Translate,将MMLU 基准——一套涵盖57个主题、14000个多项选择题翻译成多种语言。在测试的英语、拉脱维亚语、威尔士语和斯瓦希里语等26种语言中,有24种语言下,GPT-4优于GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能。

而在TruthfulQA等外部基准测试方面,GPT-4也取得了进展。OpenAI测试了GPT-4模型将事实与错误陈述的对抗性选择区分开的能力。实验结果显示,GPT-4基本模型在此任务上仅比GPT-3.5略好。但在经过RLHF训练之后,二者的差距就很大了,例如GPT-4在测试中并不是所有时候它都能做出正确的选择。

此外,GPT-4还支持做编程、玩梗图、回答关键问题、理解图片、看懂法语题目并解答等其他更多扩展技术能力,研究人员发现,GPT-4能随着时间不断处理令人兴奋地新任务——现在的矛盾是 AI 的能力和人类想象力之间的矛盾。不过OpenAI表示,图像输入是研究预览,目前不公开。

对于一个长相奇怪的充电器的图片问为什么这很可笑?GPT-4 回答:VGA 线充 iPhone。

GPT-4回答数学问题

总的来说,GPT-4 相对于以前的模型(经过多次迭代和改进)已经显著减轻了判断失误问题。在OpenAI的内部对抗性真实性评估中,GPT-4的得分比ChatGPT使用的GPT-3.5模型能力高40%。

很显然,虽然 GPT-4 对于许多现实场景的处理比人类差,但在各种专业和学术基准上已表现出和人类相当的水平。

不过,GPT-4模型也有很多不足,有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息,以及对实时事件的不了解等。

1、该模型在其输出中可能会有各种偏见,但OpenAI在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。
2、GPT-4 通常缺乏对其绝大部分数据截止后(2021 年 9 月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。
3、GPT-4 预测时也可能出错但很自信,意识到可能出错时也不会再检查一遍(double-check)。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过OpenAI目前训练后的过程,校准减少了。

OpenAI表示,研究团队一直在对GPT-4进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。数据显示,与GPT-3.5相比,模型对不允许内容的请求的响应倾向降低了82%,而GPT-4对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了29%。

另外,OpenAI团队还聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试,从而为改进GPT模型提供了依据。

“随着我们继续专注于可靠的扩展,我们的目标是完善我们的方法,以帮助我们越来越多地提前预测和准备未来的能力——我们认为这对安全至关重要。”OpenAI 表示。

目前GPT-4版本默认速率限制为每分钟40k个Token和每分钟200个请求,而GPT-4的上下文长度为8192个Token,最多提供32768个Token上下文(约 50 页文本)版本的有限访问,但版本也会随着时间自动更新。

不过,目前OpenAI公开的技术报告中,不包含任何关于模型架构、硬件、算力等方面的更多信息,也不包括期待已久的 AI 视频功能,也并没有开放 GPT-4的任何核心技术论文信息。

但OpenAI正在开源其软件框架OpenAI Evals,用于创建和运行基准测试以评估GPT-4等模型,同时逐个样本地检查它们的性能。

复旦大学计算机学院教授、博士生导师黄萱菁此前表示,OpenAI迄今为止没有开放过它的模型,只开放过API接口,你可以调用它,但拿不到GPT-3.5内部细节,而且今年连论文都没有,需要大家去猜测。


全球进入 AI 大模型军备竞赛,与GPT差距拉大


实际上,随着基于GPT技术的ChatGPT风靡全球,全球已经进入了 AI 大模型军备竞赛。

首先是影响到搜索引擎巨头地位的谷歌。手握 LaMDA、PaLM, Imagen 等 AI 技术的谷歌,不会让微软这么轻易就抢占了 AI 应用的先机。

就在GPT-4发布前几个小时,谷歌为了迎战微软,宣布将一系列即将推出的生成式人工智能(AIGC)功能与模型应用到自家产品中。包括Google Docs(文档)、Gmail、Sheets(表格)和 Slides(幻灯片)等。但不同于微软和OpenAI的“发布即可用”,谷歌只会先将Docs和Gmail中的AI工具在月底提供给一些“值得信赖的开发人员”,具体开放时间没有公布。

更早之前,谷歌发布了ChatGPT最大竞品、基于LaMDA AI 架构的 Bard聊天机器人,支持多角度回答问题,以及强大的上下文理解能力,未来 Bard 还会被集合在 Google 搜索之中,为你更快速地提供答案。不过Bard在Demo演示中频繁“翻车”,市场并不看好。

3月15日凌晨,谷歌宣布开放自家的大语言模型 PaLM API,而且还发布了一款帮助开发者快速构建 AI 程序的工具 MakerSuite。谷歌表示,此举是为了帮助开发者们快速构建生成式 AI 应用。

相对于谷歌,微软做好了充足的准备。

今年2月,微软宣布数十亿美元投资OpenAI公司,后者估值高达290亿美元,成为 AIGC 领域最高估值的独角兽公司。如今,微软已经在旗下所有产品中全线整合ChatGPT,包括且不限于Bing搜索引擎、包含Word、PPT、Excel的Office全家桶、Azure云服务、Teams聊天程序等预计本周四(16日),微软将宣布GPT-4与Azure云服务的结合。

目前在国内,百度、商汤、旷视科技等多家 AI 公司和科研机构都在做关于大模型的技术产品和应用。

就在3月14日晚,港股 AI 龙头企业商汤科技发布了多模态通用大模型“书生 2.5”,拥有30亿参数,支持问答、识图、以文生图等,在自动驾驶和居家机器人等通用场景下,“书生 2.5”可辅助处理各种复杂任务。据悉,“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于2021年11月首次共同发布,并持续联合研发。

尽管中国在 AI 领域进行了很多研究成果和布局,但目前要达到像OpenAI的效果可能还需时日。科学技术部部长王志刚3月5日表示,ChatGPT证明了 AI 是大方向,而 OpenAI 在 AI 对话实时效果方面有明显优势。

“比如发动机,大家都能做出发动机,但质量是有不同的。踢足球都是盘带、射门,但是要做到梅西那么好也不容易。”王志刚表示。

那么,国内 AI 技术行业如何看待中国企业做大模型的呢?

创新工场董事长兼CEO李开复博士在3月14日表示,ChatGPT快速普及将进一步引爆 AI 2.0 商业化。AI 2.0 是绝对不能错过的一次革命。

旷视科技联合创始人、CEO印奇3月10日对钛媒体App表示,中国攻坚 AI 大模型,要先把GPT-3.5复现出来,但过程没有想象的那么容易。国内一方面要用最艰苦朴素、奋斗的状态来攻坚核心 AI 技术,另外中国 AI 公司想活得长,必须要把大模型商业化。“我们要有极强的危机感。”

澜舟科技创始人兼CEO周明告诉钛媒体App,对于国内而言,中国做大模型还是更多的要去了解国外的发展趋势,不能固步自封,还是需要学习;但同时中国 AI 技术在过去20多年取得长足的进步,无论人才还是技术,中国有很好的历史性机遇,更多是乐观,而非悲观。

“中国在To B(企业端)落地方面应该走在ChatGPT前面。如何把中国特色发挥到极致,是大家都要彼此思考的问题。”周明创立的语音大模型公司澜舟科技在3月14日宣布完成Pre-A+轮融资,并公布了该公司研发的“孟子MChat可控大模型”,此前周明在微软工作超过20年。

就目前来看,GPT-4是OpenAI在扩展深度学习道路上的最新里程碑。但正如OpenAI所言,前方还有很多工作要做,需要通过用户和开发者的不断测试,以及社区在模型之上构建、探索和贡献,从而持续将模型变得越来越强。

无论中国公司能够做到哪种地步,唯一确定的是,这一次,我们人类离通用人工智能(AGI)更近了一步。(本文首发钛媒体App,作者|林志佳)


标签:

热门文章

  • 上车交易所平台币最后的机会!QKEx平台币将于UTC+8时间11月8日12:00开启平台币最后一轮IDO
    上车交易所平台币最后的机会!QKEx平台币将于UTC+8时间11月8日12:00开启平台币最后一轮IDO

    上车交易所平台币最后的机会!QKEx平台币将于UTC+8时间11月8日12:00开启平台币最后一轮IDO

    QKEx是QK集团于2020年开始自主研发的全球化加密资产综合服务平台,包含现货、合约、理财、算力挖矿等多板块业务;QKEX首创CommunalFI的行业全新概念,计划实现社区行为经济上链,打造去中心化社区经济及交易生态。 据官方消息,QKEx将于UTC+8时间11月8日12:00开启平台币最后一轮IDO,官方对外显示第三轮IDO价...

  • CyberCrowdChain(CCROWD)将于1月17日上线HTX
    CyberCrowdChain(CCROWD)将于1月17日上线HTX

    CyberCrowdChain(CCROWD)将于1月17日上线HTX

    据官方消息,CyberCrowdChain(CCROWD)将于1月17日上线HTX,存款将于1月13日13:00开放,在存款量满足市场需求时开放CCROWD/USDT现货交易对。据悉,CyberCrowdChain是一种基于以太坊的代币,它继承了传统加密货币的安全性和透明性,并融合了人工智能,为资产表示和交易过程带来更高的可信度和创新性。CCROWD目前已上线Polon...

  • 理财新选择,托菲斯打造 Bitcoin 价值增值共享平台
    理财新选择,托菲斯打造 Bitcoin 价值增值共享平台

    理财新选择,托菲斯打造 Bitcoin 价值增值共享平台

    据官方消息报道,托菲斯正式发布其全新挖矿理财服务,为广大用户提供Bitcoin价值增值的共享平台。作为业界领先的大型 Bitcoin 矿机企业,托菲斯以其雄厚的实力和卓越的技术,在挖矿领域独树一帜。凭借专业的技术团队和深厚的行业经验,托菲斯创新推出挖矿收益与存币生息双重收益模式,一方面,托菲斯支持三十余种主...

  • QKEx交易所已确定会在UTC+8时间11月11日16:00正式开启$QQT代币上线交易
    QKEx交易所已确定会在UTC+8时间11月11日16:00正式开启$QQT代币上线交易

    QKEx交易所已确定会在UTC+8时间11月11日16:00正式开启$QQT代币上线交易

    据官方消息,QKEx平台代币$QQT第三IDO发售已于UTC+8时间11月9日23:59:59准时结束,此后$QQT将不再对外发售! $QQT是QKEx平台所发行的唯一治理及流通使用代币,代币总量5亿枚,将于6年内释放完毕;在代币发行之初QKEx为$QQT持有者赋予了多项权益; 权益一,持有者可享受平台40%盈利分红,该分红范围...

  • 绝佳的投资机会,财富巅峰尽在Ulinx!
    绝佳的投资机会,财富巅峰尽在Ulinx!

    绝佳的投资机会,财富巅峰尽在Ulinx!

    高回报率Ulinx以超高收益和闪电般的成交速度著称。我们为您提供通往财富巅峰的捷径!资金安全保障您的安全是我们的首要任务。Ulinx采用世界一流的安全技术和协议,确保您的资金安全无忧。我们一直在为您的利益而努力,给您无与伦比的安心体验。百万活动奖励&n...

  • SOAI 完成 500 万美元天使轮融资,Archer Capital 和 XForce Capital 领投
    SOAI 完成 500 万美元天使轮融资,Archer Capital 和 XForce Capital 领投

    SOAI 完成 500 万美元天使轮融资,Archer Capital 和 XForce Capital 领投

    AI 社交平台 SOAI 完成了 500 万美元的机构天使轮融资,其中 Archer Capital投资 300 万美元,XForce Capital 投资 200 万美元。本轮融资将加速 SOAI 在AI 情感通讯领域的技术创新和市场扩张。新的计划包括深化 AI 情感理解和匹配技术,优化用户体验,扩大全球市场。SOAI 是一个起源于硅谷的创新型 AI 平台,...

  • 全球首个RWA赛道去中心化交易所FonsionDex全球宣发3.7号上线
    全球首个RWA赛道去中心化交易所FonsionDex全球宣发3.7号上线

    全球首个RWA赛道去中心化交易所FonsionDex全球宣发3.7号上线

    FonsionDex凤笙去中心化交易所由老挝MY BIOTECH集团开发,总部位于老挝国家,集团在老挝、中国政商界有着极为广阔深厚的资源与背景。此外,肩负着建设老挝文化经济特区使命、加速老挝数字经济发展,是老挝数字经济改革的首批试点单位。...

  • 区块链畅销书作者签售会
    区块链畅销书作者签售会

    区块链畅销书作者签售会

    12月6日,在马来西亚吉隆坡,金典议会《通证经济》一书举办签售会。该书由李嘉诚主席、赵梓雄博士、翁祖福博士合著。作为区块链畅销书,该书深入剖析通证经济。签售会上,作者们与读者亲切交流,分享创作心得,强调通证经济对经济结构的影响。此次活动不仅拉近了作者与读者的距离,更促进了区块链知识的普及。相信通证...

  • 奖池一千万美金,零成本参赛!Biking交易所开启年底交易狂欢赛
    奖池一千万美金,零成本参赛!Biking交易所开启年底交易狂欢赛

    奖池一千万美金,零成本参赛!Biking交易所开启年底交易狂欢赛

    2023年12月20日14:00(UTC+8),Biking交易所正式开启年度交易狂欢赛,本次大赛共分为模拟交易大赛、合约交易大赛、现货交易大赛三大赛区,大赛总奖池价值高达一千万美金!据悉,Biking年度交易大赛主赛区为模拟合约大赛,报名参赛即可获得价值十万美金的模拟合约专项金,并参与总奖池瓜分。大赛有效时间:202...

  • ​​新加坡交易所ULINK即将正式上线现货交易,并赠中秋礼盒套装
    ​​新加坡交易所ULINK即将正式上线现货交易,并赠中秋礼盒套装

    ​​新加坡交易所ULINK即将正式上线现货交易,并赠中秋礼盒套装

    2023年9月5日,新加坡交易所ULINK发布公告,ULINK现货交易板块即将迎来上线。 经过ULINK技术团队的全力研发,本次功能升级的最大亮点是一直以金融衍生品加密货币交易所为核心定位的ULINK上线了现货交易板块。 目前ULINK的金融衍生品矩阵经过不断沉淀,已涵盖永续合约,闪电合约,网格交易,期权等多...

观点

更多 >
  • 蚂蚁原副总裁漆远创业公司被曝all in大模型,原方向AI制药不做了
    蚂蚁原副总裁漆远创业公司被曝all in大模型,原方向AI制药不做了

    原文来源:量子位图片来源:由无界 AI‌ 生成从AI制药全面转向大模型领域!这是蚂蚁集团原副总裁,复旦大学AI创新与产业研究院院长漆远正在做的事。他创办的公司无限光年,现在从AI制药领域,转向专注于生成式AI和AGI研发。量子位获悉,这家公司规划自研百亿千亿大模型搭建底座,最终构建行业应用落地医疗、游戏和教育场景。...

  • 百度文心一言潜藏风险,AI视频素材来源不明,创作者或陷版权风暴
    百度文心一言潜藏风险,AI视频素材来源不明,创作者或陷版权风暴

    作者:IT时报记者:孙妍 编辑:钱立富 孙妍3月16日,李彦宏携百度文心一言亮相,并宣布开放邀请测试。虽然文心一言的能力受到了质疑,但毋庸置疑的是,百度是全球第一个挑战ChatGPT的大厂。李彦宏也已经预见,文心一言在与ChatGPT正面比较时会令大众失望,但百度认为,文心一言有两大优势:一是,画图、写长文、...

观点李彦宏:中国基本不会再出一个OpenAI,创业公司重做ChatGPT没多大意义
观点AI“春晚”英伟达又甩王炸!ChatGPT专用GPU来了 还要赋能芯片制造
观点GPT-4会让多少美国人失业?OpenAI:高收入工作会面临更大影响
观点AI企业如何发展,“中国版chat GPT”给出了答案
观点英伟达CEO:现在是AI行业的iPhone时刻