广告

GPT-4终于上线,看看它到底有多聪明?

2023-03-15 16:10:38 综合报道 阅读:
3月14日,ChatGPT的开发机构OpenAI正式发布其里程碑之作GPT-4。据介绍,GPT-4是一个多模态大模型(接受图像和文本输入,生成文本)。相比上一代的GPT-3,GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力。

3月14日,ChatGPT的开发机构OpenAI正式发布其里程碑之作GPT-4。据介绍,GPT-4是一个多模态大模型(接受图像和文本输入,生成文本)。相比上一代的GPT-3,GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力,能够处理超过25000个单词的文本,编写更大型的代码,允许长文内容创建、扩展对话以及文档搜索和分析等用例。此外,OpenAI还承诺GPT-4相比之前的模型,包括ChatGPT此前应用的GPT-3.5,将更加安全且具协调性。kOzednc

3月29日,Aspencore将在IIC Shanghai(2023国际集成电路展览会暨研讨会)同期举办第二届 “碳中和暨绿色能源”电子产业可持续发展高峰论坛,欢迎大家点击这里报名参会,共同探寻可持续发展新道路。kOzednc

kOzednc

无敌的考试机器

那GPT-4实际的表现到底有多强呢?简单来说光论考试已经与人类相当,甚至超过了不少普通人。根据OpenAI的评估,GPT-4已经能轻松通过美国的律师考试,且考进了前10%的排名。相比之下,它的上一代模型GPT-3.5倒数10%只能吊个车尾。kOzednc

除了律师考试,GPT-4还在美国大学入学测试SAT阅读写作中拿下710分、数学700分(满分800),虽然分数不高,但已经够上美国大学的录取水平。更重要的是,GPT-4能在大学的基础微积分课程中获得4的成绩(5分为满分),这证明了该模型已经掌握了高等数学大部分的概念。kOzednc

kOzednc

另外,GPT-4在不同语种上的能力表现:中文的准确度大概在80%左右,已经要优于GPT-3.5的英文表现了。因为许多现有的ML基准测试都是用英语编写的,为了初步了解GPT-4其他语言的能力,研究人员使用Azure翻译将MMLU基准(一套涵盖57个主题的14000个多项选择题)翻译成多种语言。在测试的 26 种语言的 24 种中,GPT-4 优于 GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能:kOzednc

kOzednc

小编要失业了?

除了优秀的考试和语言能力,强大的识图能力和显著提高的回答准确性,以及文字输入长度限制的增加,也让GPT-4的文书处理变得更加简洁高效,大大扩展了GPT-4的实用性。有网友直接把整篇论文截图发给它,GPT-4可以按像素处理其中的文字和图片,并给出对整篇论文的总结摘要。kOzednc

kOzednc

kOzednc

当提供来自《纽约时报》的文章时,新的聊天机器人几乎每次都能对故事进行精确和准确的总结。如果在摘要中添加一个随机句子并询问机器人摘要是否不准确,它会指向那个被添加的句子。kOzednc

kOzednc

发布会直播上,OpenAI总裁Gregman还现场表演了一次GPT-4给代码修Bug,直接把1万字的程序文档粘贴给GPT-4,最后再附上出现的问题,就可以在几秒钟内得到解决办法。以目前GPT-4的速度来看,以后不光小编要失业,程序员也不远了。kOzednc

kOzednc

冷笑话收割机

以人类千奇百怪的笑点来说,其实大多数笑话都是很难其笑点原因的。而GPT-4的出现给爱讲冷笑话的朋友带来了福音,它已经可以轻松理解网友心照不宣的冷笑话,即便是表情包,它也能说个子丑寅卯来。比如下面的这张图,GPT-4可以按顺序描述出每一格的内容,并总结笑点:用巨大的过时VGA接口给小巧的现代智能手机充电。kOzednc

kOzednc

而除了分析笑点,GPT-4还能分析要点,它可以通过用户的简单需求直接生成代码,甚至网站。即便用户只是在餐巾纸上画了个简单界面,GPT-4都能直接搞出一个可运行的网站。kOzednc

kOzednc

仍有不足

根据OpenAI的内部测试,GPT-4仍有GPT-3.5的老毛病,就是胡言乱语。专业地讲,GPT-4仍会产生幻觉,生产错误答案,并出现推理错误。比如当被要求提供描述最新癌症研究的网站地址时,它有时会生成不存在的互联网地址。这一点也困扰着所有领先的聊天机器人,因为系统不了解什么是真什么是假,它们可能会生成完全错误的文本。kOzednc

另一方面,GPT-4仍缺乏对数据截至日期后新进展的了解能力,即其无法在训练学习后,追踪新的信息来补足对某件事认知。比如当问及NLP(自然语言处理)中需要解决的重要问题是什么?未来十年的研究?它无法提出全新的想法。此外,它也无法从经验中学习,并可能一直轻信人类。kOzednc

3月29日,Aspencore将在IIC Shanghai(2023国际集成电路展览会暨研讨会)同期举办第二届 “碳中和暨绿色能源”电子产业可持续发展高峰论坛,欢迎大家点击这里或扫码报名参会,共同探寻可持续发展新道路。kOzednc

kOzednc

责编:Ricardo
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 百度发布“文心一言”AI模型,对标“ChatGPT”有几层功 据EDN电子技术设计报道,3月16日下午,百度创始人、董事长、CEO李彦宏宣布文心一言正式发布,对标ChatGPT。李彦宏也多次提及,这类大语言模型还远未到发展完善的阶段,进步空间很大,未来这段时间它一定会飞速发展,日新月异。
  • ChatGPT背后:微软耗资数亿美元,用数万英伟达A100打造的 EDN曾报道OpenAI的ChatGPT最终将需要超过3万块Nvidia显卡的算力以维持运行。近日,这一分析得到了微软方面的验证。
  • 英伟达发布VSR技术,拯救低清老视频 近日,英伟达发布了531.18 WHQL驱动程序,为用户带来了期待已久的RTX Video Super Resolution视频超分辨率技术,可以提高在Chrome或Edge浏览器中观看视频的质量。
  • 称可超越ChatGPT,微软推出新人工智能模型——Kosmos-1 微软推出了 Kosmos-1,据称它是一种多模式大型语言模型 (MLLM),不仅可以对语言提示做出反应,还可以对视觉线索做出反应,可用于一系列任务,包括图像说明、视觉问题回答等等。
  • 维持ChatGPT运行将需要超过3万块Nvidia显卡 据TrendForce的最新预测,人工智能(AI)将成为Nvidia的最大收入来源之一。该研究公司估计,OpenAI的ChatGPT最终将需要超过3万块Nvidia显卡的算力以维持运行。
  • 复旦团队发布国内首个类ChatGPT模型MOSS,与ChatGPT相比 复旦大学自然语言处理实验室邱锡鹏教授团队悄然发布了国内首个类ChatGPT模型MOSS(https://moss.fastnlp.top/),不仅一举刷出数个微博热搜话题,在知乎上更是直接冲上热榜,话题浏览进306万次。知乎匿名网友称已经拿到了内测资格,并实时更新了一波测试结果……
  • 模拟计算重新定义边缘AI性能新境界 传统的数字计算扩展方法,即转向更先进的半导体工艺节点,显然已经达到物理极限(即摩尔定律已经失效),而不断攀升的制造成本则限制了只有少数几家最富有的公司才能使用该技术。下一代的人工智能处理亟需采用新的方法。
  • 写在新年开端——边缘智能,赋能数字化未来 新的一年世界仍然面临着大大小小的挑战,即使是最权威的经济学家也无法给出确切的预测。如果从更长的时间范畴来看,技术与人类进步的脚步却从未停歇,贯穿各种上上下下的周期,这也许是对长期主义最好的诠释。
  • ChatGPT参加美国医疗执照考试,人工智能医生即将上岗? 美国执业医师资格考试以难度大著称,但根据一项研究发现,聊天机器人ChatGPT无需经过专门训练或加强学习,就能在美国医学执照考试中取得及格或接近及格的成绩。有专家认为:“社会即将发生变化,我们可能很快就会从 Google 医生或 Bing 护士那里获得专业的医疗建议。”
  • ChatGPT爆火,麻省理工学院揭露其训练学习方式 麻省理工学院的研究人员发现,类似于大型语言模型的大规模神经网络模型能够在其隐藏层内包含更小的线性模型,大型模型可以使用简单的学习算法对其进行训练以完成新任务。
  • 微软推出新版Bing搜索引擎及改进版Edge,号称“比 ChatG 巨头们的AI战愈演愈烈起来。在谷歌公布其 ChatGPT 竞品Bard后的第二天,微软就官宣了两款新的 AI 产品:基于下一代 OpenAI 大型语言模型上的新版 Bing 搜索引擎,号称“比 ChatGPT 更强大”,以及基于AI功能的改进版 Edge 网络浏览器。
  • 感受到了ChatGPT的威胁?谷歌、百度新动作,苹果也急了 ChatGPT 在1月份达到了1亿用户,在两个月内完成了TikTok大约九个月和 Instagram 两年半时间做出的成绩,迅速成为互联网上广泛使用的工具。随着人工智能关注度的提高,谷歌和微软也开始进一步争夺人工智能领导之位,而国内的人工智能企业百度也将有下一步动作。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了