Chat GPT4来了,它和3.5区别在哪?李宏毅机器学习笔记
听说GPT4模型更大、参数更多,功能更强,具体它好在哪里?
GPT4真的能看懂图片吗?
官方回答:不太能~~
下面这张图片是将两个不存在的网址输入进GPT4,问它看到了什么,结果发现GPT真的会胡言乱语,它会根据网址中出现了“man”这个单词,就说他看到了“一个拿着手枪的男人。。。巴拉巴拉”
明显就是在胡编乱造!
而如果网址中出现了“girl”这个单词,GPT又会说他看到了“一个穿着校服的女孩子。。。巴拉巴拉”
依然是在胡言乱语!
所以,GPT4能够读懂图片的结论还是存在疑问的。
GPT4的考试能力大幅提升
另一方面,与3.5相比较起来,GPT4在很多方面的能力都有显著提升!尤其是法考、GRE考试等级考试中的成绩明显突出,下图展示了GPT4和GPT3.5在各种考试中考取分数与所有参与考试人员比较的结果:
如下图所示:
注:柱状条高度:代表GPT在对应的考试中,超越了百分之多少的考生。
GPT4依然给不出鸡兔同笼的正确答案
从这两个图片(上方是GPT4,下面是GPT3),我们可以发现:GPT4的答案更加收敛or固定,GPT3.5的答案比较发散,而这也许就是GPT4的答案相对更加准确的原因——收敛到一个正确的答案上了。
GPT4的另外一个大的进步:它学会了更多种冷门、不常用的语言
GPT4知道自己 “不懂” 吗?——GPT4在瞎说的时候,会不会心虚?
测试结果证明了,GPT4在与人类交谈之前,它对自己答案的信心高低与答案正确概率是成正比关系的——它大部分情况是知道自己在胡言乱语的
那么,回到一开始的问题——如何让GPT4读懂图片呢?
Chat GPT是一种基于自然语言处理技术的文本生成模型,它并不具备直接读取图片的能力。但是,有几种方法可以间接的让他读懂图片!
第一种方法:
我们可以使用图像识别技术将图片转化为文字描述,然后将这些文字描述输入到Chat GPT中,让它根据描述生成相应的回答。
例如,假设我们有一张图片是一只狗在草地上玩耍。我们可以使用图像识别算法将这张图片转化为文字描述,比如"一只棕色的狗在绿草地上玩耍",然后将这个描述输入到Chat GPT中,让它根据这个描述回答有关这个场景的问题,比如"这只狗属于什么品种?"或者"这个场景发生在哪里?"等等。这样,Chat GPT就可以通过文字描述来理解图片所表达的内容并做出回答。
第二种方法:
OCR(Optical Character Recognition)即光学字符识别,是一种将图像中的文字自动转换为可编辑格式的技术。OCR的原理是将扫描或拍摄的图像进行预处理,如灰度化、二值化、去噪等操作,然后进行分割,将每个字符分离出来,接着对每个字符进行特征提取,最后将提取的特征与字库中的字符进行比对,找到最佳匹配字符。
第三种方法:
Image encoder是一种将图像转换为向量表示的模型;在自然语言处理中,图像编码器的作用是将图像转化为文本表示形式,使得自然语言模型(例如循环神经网络、Transformer等)能够处理图像信息。这种图像转换的文本表示可以直接输入到自然语言模型中,与文本数据进行融合,从而让模型能够更好地理解图像所传达的信息。
关于图像如何编码成向量的细节和具体实现,如果您有兴趣,李宏毅老师推荐您阅读下面这篇论文
Chat GPT4来了,它和3.5区别在哪?李宏毅机器学习笔记相关推荐
- Chat GPT-4,大增长时代的开始!
虽然我们早在 2017 年就预测了超大模型的到来,因此才搞了分布式深度学习框架 OneFlow(github.com/Oneflow-Inc/oneflow/),且 2020 年的 GPT-3 也掀起 ...
- Chat GPT-4 + midnshow.fun 自动写PPT
目录 GPT注册使用 提问技巧 打开能够导入markdown的PPT制作工具 自动生成的PPT 参考资料 GPT注册使用 参见链接: https://blog.csdn.net/qq_22828175 ...
- 史上最强模型 GPT-4 上线:一张手绘草图能生一个网站、60 秒搞定一个游戏开发!
平地一声雷,GPT-4 重磅来袭. 3 月 14 日,OpenAI 正式上线新一代人工智能大模型 GPT-4,它是一个大型多模态模型,可以接受图像和文本输入,同时返回文本输出.就像这样: 用户:这幅画 ...
- 【GPT4】GPT4 官方报告解读
欢迎关注[youcans的AGI学习笔记]原创作品 [GPT4]GPT-4 官方报告解读 1. GPT-4 官方介绍 2. GPT-4 的性能 2.1 GPT-4 在各种学术和专业考试中的性能 2.2 ...
- 狂飙!GPT-4最新20+个应用案例集锦,附视频
编者按:自OpenAI于3月15日重磅推出GPT-4,一石激起千层浪,全球开发者.创业者们迅速尝试了各种形形色色的场景应用,来体验它的极限,游戏.编程.客户关系.营销.财务.家庭生活.饮食.文学艺术创 ...
- AIGC之GPT-4:GPT-4的简介(核心原理/意义/亮点/技术点/缺点/使用建议)、使用方法、案例应用(计算能力/代码能力/看图能力等)之详细攻略
AIGC之GPT-4:GPT-4的简介(核心原理/意义/亮点/技术点/缺点/使用建议).使用方法.案例应用(计算能力/代码能力/看图能力等)之详细攻略 解读:在2022年11月横空出世的ChatGPT ...
- 史上最强模型 GPT-4 上线:一张手绘草图能生一个网站、60 秒搞定一个游戏开发!...
整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 平地一声雷,GPT-4 重磅来袭. 3 月 14 日,OpenAI 正式上线新一代人工智能大模型 GPT-4,它是一个大型多模态模型,可以 ...
- GPT4的1000+篇文章总结
GPT4的1000+篇文章总结 本文收集和总结了有关GPT4的1000+篇文章,由于篇幅有限只能总结近期的内容,想了解更多内容可以访问:http://www.ai2news.com/, 其分享了有关A ...
- 微软GPT-4 Office王炸来袭,10亿打工人被革命
3月15日,微软祭出了办公软件王炸--Microsoft 365 Copilot,再次闪瞎全世界. 从此,不管是Word.PPT.Excel,还是Outlook.Teams.Microsoft Viv ...
最新文章
- 让织梦内容页arclist标签的当前文章标题加亮显示
- 海量数据库解决方案2011032301
- linux 安装 nodejs
- httpservletrequest_javax.servlet.http.HttpServletRequest报错
- linux常用命令之lsof 、netstat、ipcs、ldd
- 网络分流器-网络分流器的应用领域
- 为什么SAP UI5框架在应用整个生命周期只调用onBeforeRendering一次
- oracle cpu 100%原因,oracle 12.1 cpu 100%
- 力扣226-翻转二叉树(C++,附思路)
- 表单+文件上传+音频+iframe
- rails 2.3.5 + jquery ui datepicker 不能显示中文
- 优化算法学习(LM算法)
- Python爬虫 西刺代理IP的获取 代理IP
- 为N台linux服务器传输大文件
- ThingsBoard教程(九):前端架构分析
- linux命令练习题
- linux c计算时间差值,获取时间和计算时间差的几种方法总结,时间差几种方法...
- 旋转矩阵变换左右手系
- 文章付费阅读系统-发货100在线视频课程教育系统 v1.1
- 如何用C语言来实现【三子棋游戏】