目录

  • 一、前言
    • (1)弱人工智能(Weak AI)
    • (2)强人工智能(General AI)
    • (3)超人工智能(Super AI)
  • 二、SAM的一些介绍
    • 2.1 模型的结构是什么?
    • 2.2 支持哪些类型的提示?
    • 2.3 该模型使用什么平台?
    • 2.4 模型有多大?
    • 2.5 推理需要多长时间?
    • 2.6 训练模型需要多长时间?
    • 2.7 模型是在哪些数据上训练的?
    • 2.8 模型是否生成掩码标签?
  • 三、象棋抠图测试
    • 3.1、图片上传
    • 3.2、鼠标物体响应
    • 3.3、一键扣图
  • 四、运动场景测试
  • 五、后记

一、前言

今天亲手体验了一下meta公司发布的Segment Anything,我们认为是cv界的chatgpt,这个模型太厉害了,厉害到可以对任意一张图进行分割,他们的网站上的例子也是挺复杂的,能够说明其强大的能力—demo链接,人工智能的技术迭代真是太快了。在模型的介绍中,有句话着实惊人——号称:“SAM已经学会了物体是什么的一般概念”:

通常人们认为,人工智能大致可以分为三个阶段:

(1)弱人工智能(Weak AI)

弱人工智能(Weak AI)简称弱智,指特定场景解决特定领域的问题。比如前段时间出现的AlphaGo,实现了围棋领域的的人工智能。

(2)强人工智能(General AI)

强人工智能更贴切的翻译是通用人工智能,就是以ChatGPT为代表的完全人工智能,能够适应人类大部分甚至是所有工作领域的一类人工智能。可以说我们如今,正在处于通用人工智能技术突破的时间转折点上。

(3)超人工智能(Super AI)

顾名思意,这个时候,人工智能在人类定义的”智能“领域已经全面超过了人类,随着量子计算等技术发展,相信实现是时间问题。真希望这个时代晚点到来,或者那时候,人类或许已经和超人工智能实现了融合,成为了新一代的超人。也希望那个时代,人类的道德境界也实现了满格。

二、SAM的一些介绍

2.1 模型的结构是什么?

  • ViT-H 图像编码器,每个图像运行一次并输出图像嵌入
  • 嵌入输入提示(如单击或框)的提示编码器
  • 基于转换器的轻量级掩码解码器,可从图像嵌入和提示嵌入中预测对象掩码

2.2 支持哪些类型的提示?

  • 前景/背景点
  • 边界框
  • 遮罩

2.3 该模型使用什么平台?

  • 图像编码器在 PyTorch 中实现,需要 GPU 才能进行高效推理。
  • 提示编码器和掩码解码器可以直接使用 PyTroch 运行,也可以转换为 ONNX,并在支持 ONNX 运行时的各种平台上的 CPU 或 GPU 上高效运行。

2.4 模型有多大?

  • 图像编码器具有632M参数。
  • 提示编码器和掩码解码器具有4M参数。

2.5 推理需要多长时间?

  • 图像编码器在 NVIDIA A0 GPU 上需要 ~15.100 秒。(没查到这款GPU,有知情的评论区告知)
  • 提示编码器和掩码解码器在浏览器中使用多线程 SIMD 执行的 CPU 上占用 ~50 毫秒。

2.6 训练模型需要多长时间?

  • 该模型在 3 个 A5 GPU 上训练了 256-100 天。

2.7 模型是在哪些数据上训练的?

  • 该模型在meta的SA-1B数据集上进行了训练。

2.8 模型是否生成掩码标签?

  • 否,模型仅预测对象掩码,不生成标签。

三、象棋抠图测试

笔者上传了自己的一个棋盘图片,利用Segment Anything提供的模型工具进行了测试,测试结果发现,能够很好地抠出棋盘中的棋子。

3.1、图片上传

3.2、鼠标物体响应

上传后,通过一点时间的识别后,把鼠标放到图片上面,就可以对上面的棋子做出响应,显然自动分离出了棋子棋盘。有一点厉害的是,它把棋子的厚度也给识别出来,认为也是棋子的一部分。

3.3、一键扣图

Segment Anything提供了手动框选分割功能,此外还有一个牛逼的功能是,自动对图像进行分割:

点击自动分割后,可以准确的识别出棋子:

识别完后,它会自动切出分离的物体如下32个棋子一个不少:

四、运动场景测试

输入一张随机的羽毛球图片:

识别结果如下:

好吧,我承认,我用opecv远远还不能达到以上的效果。

五、后记

以上的象棋、羽毛球图片其实场景并不复杂,比它网站上面的图片要简单的多,但是足够可以说明一件事,该模型可以胜任多个领域的机器视觉任务,或者是给各领域的cv工作者提供了底层解决方案或者思路。

CV界的chatgpt出现——Segment Anything能分割万物相关推荐

  1. Segment Anything CV界的GPT—prompt-based里程碑式研究成果

    一.计算机视觉界的里程碑式研究成果 - SAM与SA-1B综述 Segment Anything受chatGPT式的prompt-based思路启发,训练数据集涵盖10亿masks,根据提供的图片注释 ...

  2. 惊!!!CV界的BERT要来了?准确率提高近25%!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自:量子位 BERT在NLP界无往不利,大大提高了自然语言模型的性能,那么,在 ...

  3. 谷歌开源预训练新范式BiT,准确率提高近25%!网友评价:CV界的BERT

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI BERT在NLP界无往不利,大大提高了自然语言模型的性能,那么,在计算机视觉领域,有没有可能一个CNN打天下? 现在,谷歌大脑给出了一个答案 ...

  4. 一个离开CV界多年的油腻中年男子的CV复兴之路

    一个离开CV界多年的油腻中年男子的CV复兴之路. 从头再来. 从零开始. 归零. 脚踏实地.

  5. Smarter公众号做CV界最优质的内容输出(16人银河战舰)

    Smarter交流群 Smarter开白&合作&内推 内推注明: 昵称-内推 交流群注明: 交流群-昵称-学校/公司-方向 开白&合作注明: 昵称-目的 目前16人银河战舰! ...

  6. CV之IS:计算机视觉中图像分割(语义分割)最diao炸(完)天(整)的思维导图

    CV之IS:计算机视觉中图像分割(语义分割)最diao炸(完)天(整)的思维导图 导读:此语义导图为某大牛精心整理,感谢无私分享. 目录 语义分割思维导图(完整) 相关文章 CV之IS:计算机视觉之图 ...

  7. AI学术大地震---YOLO之父退出CV界,以此来反对AI算法用于军事和隐私窥探

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 我们可能看不到根红苗正的 YOLO v4 面世了. 「YOLO 之父」Joseph ...

  8. yolo论文_YOLO之父宣布退出CV界,坦言无法忽视自己工作带来的负面影响

    机器之心报道 参与:泽南.张倩.蛋酱 我们可能看不到根红苗正的 YOLO v4 面世了. 「YOLO 之父」Joseph Redmon 宣布退出计算机视觉领域了!这个刚刚出现的消息着实让人工智能界感到 ...

  9. YOLO之父宣布退出CV界,坦言无法忽视自己工作带来的负面影响

    我们可能看不到根红苗正的 YOLO v4 面世了. 「YOLO 之父」Joseph Redmon 宣布退出计算机视觉领域了!这个刚刚出现的消息着实让人工智能界感到惊讶. 在社交网络上,这位 YOLO. ...

最新文章

  1. 揭秘高盛区块链报告:区块链技术在五大领域从理论走向实践 | 附报告下载
  2. SharePoint 2016 必备组件离线安装介绍
  3. requireJS文件夹
  4. docker容器化python开发环境_如何 Docker 化 Python Django 应用程序
  5. 从感知机到支持向量机—学习笔记
  6. 模型审查的4个核心要点
  7. Unity3D基础20:游戏打包发布
  8. c语言中fac函数杨辉三角,C语言常用算法
  9. 持久化存储与HTTP缓存
  10. 微信公众平台开发者模式和编辑模式有什么用
  11. 【时间同步】IEEE-1588总结
  12. texlive的安装
  13. oracle r12成本操作,ORACLE-EBS-R12成本模块讲义.ppt
  14. 图片上打印汉字(C++、OPENCV+字库)
  15. Linux内核基础--事件通知链(notifier chain)good【转】
  16. 倒计时7天丨2022全球边缘计算大会深圳站参会指南来啦!
  17. 关于思科无线网络无法连接解决
  18. 走出软件作坊 第三十章 蛋白质女孩
  19. 玩玩python之爬取补天厂商列表
  20. 化工厂人员定位详细解决方案

热门文章

  1. 浙大毕业典礼上研究生替直博生哥们在线“征婚”,网友:浙大是吧?来了!...
  2. NC:中农徐凌/UC伯克利Coleman-Derr-植物与根际微生物在干旱下的互作机制(招博后)...
  3. imu 里程计融合_地图影像与IMU及里程计集成的探测车定位
  4. 微信html5上传图片闪退,web-view 里面的h5上传图片,部分苹果手机闪退,急!!!...
  5. 阿里云企业认证为什么尽量不要选择员工个人认证
  6. Unity 贝塞尔曲线
  7. 一周面试求职的经验教训总结
  8. C++简单问题搞复杂之构造函数与初始化(模板类)
  9. Sql Server数据库实现表中字段的列加密研究
  10. Openwrt系统编译