听说GPT4模型更大、参数更多,功能更强,具体它好在哪里?

GPT4真的能看懂图片吗?

官方回答:不太能~~

下面这张图片是将两个不存在的网址输入进GPT4,问它看到了什么,结果发现GPT真的会胡言乱语,它会根据网址中出现了“man”这个单词,就说他看到了“一个拿着手枪的男人。。。巴拉巴拉

明显就是在胡编乱造!

而如果网址中出现了“girl”这个单词,GPT又会说他看到了“一个穿着校服的女孩子。。。巴拉巴拉”

依然是在胡言乱语!

 所以,GPT4能够读懂图片的结论还是存在疑问的。

GPT4的考试能力大幅提升

另一方面,与3.5相比较起来,GPT4在很多方面的能力都有显著提升!尤其是法考、GRE考试等级考试中的成绩明显突出,下图展示了GPT4和GPT3.5在各种考试中考取分数与所有参与考试人员比较的结果:

如下图所示:

注:柱状条高度:代表GPT在对应的考试中,超越了百分之多少的考生。

GPT4依然给不出鸡兔同笼的正确答案

 

从这两个图片(上方是GPT4,下面是GPT3),我们可以发现:GPT4的答案更加收敛or固定,GPT3.5的答案比较发散,而这也许就是GPT4的答案相对更加准确的原因——收敛到一个正确的答案上了。

GPT4的另外一个大的进步:它学会了更多种冷门、不常用的语言

GPT4知道自己 “不懂” 吗?——GPT4在瞎说的时候,会不会心虚?

测试结果证明了,GPT4在与人类交谈之前,它对自己答案的信心高低与答案正确概率是成正比关系的——它大部分情况是知道自己在胡言乱语的

那么,回到一开始的问题——如何让GPT4读懂图片呢?

Chat GPT是一种基于自然语言处理技术的文本生成模型,它并不具备直接读取图片的能力。但是,有几种方法可以间接的让他读懂图片!

第一种方法

我们可以使用图像识别技术将图片转化为文字描述,然后将这些文字描述输入到Chat GPT中,让它根据描述生成相应的回答。

例如,假设我们有一张图片是一只狗在草地上玩耍。我们可以使用图像识别算法将这张图片转化为文字描述,比如"一只棕色的狗在绿草地上玩耍",然后将这个描述输入到Chat GPT中,让它根据这个描述回答有关这个场景的问题,比如"这只狗属于什么品种?"或者"这个场景发生在哪里?"等等。这样,Chat GPT就可以通过文字描述来理解图片所表达的内容并做出回答。

第二种方法

OCR(Optical Character Recognition)即光学字符识别,是一种将图像中的文字自动转换为可编辑格式的技术。OCR的原理是将扫描或拍摄的图像进行预处理,如灰度化、二值化、去噪等操作,然后进行分割,将每个字符分离出来,接着对每个字符进行特征提取,最后将提取的特征与字库中的字符进行比对,找到最佳匹配字符。

第三种方法

Image encoder是一种将图像转换为向量表示的模型;在自然语言处理中,图像编码器的作用是将图像转化为文本表示形式,使得自然语言模型(例如循环神经网络、Transformer等)能够处理图像信息。这种图像转换的文本表示可以直接输入到自然语言模型中,与文本数据进行融合,从而让模型能够更好地理解图像所传达的信息。

关于图像如何编码成向量的细节和具体实现,如果您有兴趣,李宏毅老师推荐您阅读下面这篇论文

Chat GPT4来了,它和3.5区别在哪?李宏毅机器学习笔记相关推荐

  1. Chat GPT-4,大增长时代的开始!

    虽然我们早在 2017 年就预测了超大模型的到来,因此才搞了分布式深度学习框架 OneFlow(github.com/Oneflow-Inc/oneflow/),且 2020 年的 GPT-3 也掀起 ...

  2. Chat GPT-4 + midnshow.fun 自动写PPT

    目录 GPT注册使用 提问技巧 打开能够导入markdown的PPT制作工具 自动生成的PPT 参考资料 GPT注册使用 参见链接: https://blog.csdn.net/qq_22828175 ...

  3. 史上最强模型 GPT-4 上线:一张手绘草图能生一个网站、60 秒搞定一个游戏开发!

    平地一声雷,GPT-4 重磅来袭. 3 月 14 日,OpenAI 正式上线新一代人工智能大模型 GPT-4,它是一个大型多模态模型,可以接受图像和文本输入,同时返回文本输出.就像这样: 用户:这幅画 ...

  4. 【GPT4】GPT4 官方报告解读

    欢迎关注[youcans的AGI学习笔记]原创作品 [GPT4]GPT-4 官方报告解读 1. GPT-4 官方介绍 2. GPT-4 的性能 2.1 GPT-4 在各种学术和专业考试中的性能 2.2 ...

  5. 狂飙!GPT-4最新20+个应用案例集锦,附视频

    编者按:自OpenAI于3月15日重磅推出GPT-4,一石激起千层浪,全球开发者.创业者们迅速尝试了各种形形色色的场景应用,来体验它的极限,游戏.编程.客户关系.营销.财务.家庭生活.饮食.文学艺术创 ...

  6. AIGC之GPT-4:GPT-4的简介(核心原理/意义/亮点/技术点/缺点/使用建议)、使用方法、案例应用(计算能力/代码能力/看图能力等)之详细攻略

    AIGC之GPT-4:GPT-4的简介(核心原理/意义/亮点/技术点/缺点/使用建议).使用方法.案例应用(计算能力/代码能力/看图能力等)之详细攻略 解读:在2022年11月横空出世的ChatGPT ...

  7. 史上最强模型 GPT-4 上线:一张手绘草图能生一个网站、60 秒搞定一个游戏开发!...

    整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 平地一声雷,GPT-4 重磅来袭. 3 月 14 日,OpenAI 正式上线新一代人工智能大模型 GPT-4,它是一个大型多模态模型,可以 ...

  8. GPT4的1000+篇文章总结

    GPT4的1000+篇文章总结 本文收集和总结了有关GPT4的1000+篇文章,由于篇幅有限只能总结近期的内容,想了解更多内容可以访问:http://www.ai2news.com/, 其分享了有关A ...

  9. 微软GPT-4 Office王炸来袭,10亿打工人被革命

    3月15日,微软祭出了办公软件王炸--Microsoft 365 Copilot,再次闪瞎全世界. 从此,不管是Word.PPT.Excel,还是Outlook.Teams.Microsoft Viv ...

最新文章

  1. 让织梦内容页arclist标签的当前文章标题加亮显示
  2. 海量数据库解决方案2011032301
  3. linux 安装 nodejs
  4. httpservletrequest_javax.servlet.http.HttpServletRequest报错
  5. linux常用命令之lsof 、netstat、ipcs、ldd
  6. 网络分流器-网络分流器的应用领域
  7. 为什么SAP UI5框架在应用整个生命周期只调用onBeforeRendering一次
  8. oracle cpu 100%原因,oracle 12.1 cpu 100%
  9. 力扣226-翻转二叉树(C++,附思路)
  10. 表单+文件上传+音频+iframe
  11. rails 2.3.5 + jquery ui datepicker 不能显示中文
  12. 优化算法学习(LM算法)
  13. Python爬虫 西刺代理IP的获取 代理IP
  14. 为N台linux服务器传输大文件
  15. ThingsBoard教程(九):前端架构分析
  16. linux命令练习题
  17. linux c计算时间差值,获取时间和计算时间差的几种方法总结,时间差几种方法...
  18. 旋转矩阵变换左右手系
  19. 文章付费阅读系统-发货100在线视频课程教育系统 v1.1
  20. 如何用C语言来实现【三子棋游戏】

热门文章

  1. 索爱X8 一键root方法/删除系统程序
  2. vector的erase函数
  3. 日奥委会主席否认行贿 以调查报告主张清白遭质疑
  4. android studio 光遇,autojs光遇脚本
  5. c语言中的判断语句,C判断语句
  6. vue 超出多行,省略,展示显示更多按钮
  7. 电脑无法连接公司无线的问题
  8. java 并发数_并发数和TPS的理解
  9. COJ1981-小M的魔术表演
  10. 创业开始_我的锦誉德工作室成立