每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

五问「ChatGPT+医学影像」:新一代的 AI 能否成为放射科医生的一把利器?

在医学等专业性较强的领域内,ChatGPT的表现还不够好,如果想将ChatGPT应用到医学影像之中,多模态学习必不可少。医学领域中目前存在很多的图像、音频、文本等不同种类的数据,必须利用多模态学习将其进行结合,才能应用在临床工作中。

SAP与微软合作,通过ChatGPT简化招聘流程

通过此次合作,SAP将微软的多项类ChatGPT功能集成在人力资源解决方案SAP Success Factors中,通过自然语言就能生成职位描述、面试问题等,加速人才招聘流程。

谷歌通过强化学习来优化电子商务推荐系统

传统的推荐系统往往只关注单一目标,如点击率或购买率,而MORL则可以同时考虑多个目标,例如用户满意度、收益和转化率等。通过对这些目标进行综合权衡,谷歌团队的推荐系统可以更加准确地预测用户的偏好并提供更有针对性的推荐。

https://ai.googleblog.com/2023/05/using-reinforcement-learning-for.html

LLM Accelerator:使用参考文本无损加速大语言模型推理

由于大模型的参数量巨大、推理成本高,因此如何在大规模部署大模型的过程中降低成本、减小延迟是一个关键课题。针对此问题,微软亚洲研究院的研究员们提出了一种使用参考文本无损加速大语言模型推理的方法 LLM Accelerator,在大模型典型的应用场景中可以取得两到三倍的加速。

ChatGPT之父舌战国会山!OpenAI欲与政府联手,权力通天

北京制定通用人工智能创新措施,这21项值得关注

一种高效模拟大型室内声学的方法

室内声学建模和仿真的一个挑战是准确模拟一个房间内全部频率范围内的声学性能。这篇文章讨论了在 COMSOL Multiphysics® 软件中对室内声学进行建模的一种混合方法,就是将多种方法的结果集成到一个模型中,来提高准确性并确保方法的可行性。接下来,我们来看看如何做到这一点。

音频品鉴与歌唱评价——音频内容理解实践

本次LiveVideoStackCon 2022 北京站邀请到腾讯音乐天琴实验室高级研究员——江益靓,为大家介绍全民K歌的多维度评价技术和深度歌唱评价技术的实践,以及优质内容挖掘中使用的音频品鉴系统。

为什么我们能判断声音的远近 - 初始时间延迟差的作用

本文以初始时间延迟差为例,来介绍应该如何设计对应的听力测试,探究其在双耳距离感知中的作用。

SMPTE Motion Imaging Journal 2023 | COTS实用媒体处理平台构建案例

为了在商用非专用硬件上使用来自不同供应商的元素构成可扩展的基于软件的广播系统,并避免在设施和云中的锁定,需要采用混合多云方法。作为一个案例研究,本文构建了一个可扩展的边缘平台,用于转码、人工智能(AI)推理和其他视频和音频处理。多架构、容器化应用程序使用 Kubernetes 进行部署和管理。

使用FFmpeg模拟视频播放列表的实时流

本文展示了如何使用FFmpeg生成一个m3u8播放列表文件以及相关的ts媒体文件,并通过本地服务器将其提供给客户端进行播放。此外,文中还讨论了一些常见问题和解决方案,例如如何处理不同分辨率的视频、如何支持HTTPS等等。

https://www.mux.com/blog/simulate-a-live-stream-of-a-video-playlist-with-ffmpeg

SRT 技术是如何改变现场视频直播的?

据2023年的HAIVISION的广播转型报告显示:SRT已经成为互联网直播视频传输最常用的流媒体协议。2023年,SRT联盟成立六周年,成员超600人。

https://www.haivision.com/blog/broadcast-video/live-video-evolves-with-srt-technology-and-the-internet/

2023年4月云服务行业动态及热点研究月报

本报告是基于对2023年4月份的数据中心、基础云、SaaS和行业云等赛道动态的调查整理而成。

BITMOVIN | 容器格式通用指南

容器格式是一种将多个数据流嵌入到单个文件中的方式,常用于在线视频、下载电影或使用流媒体服务中。常见的容器格式包括MP4、MKV、AVI和MOV等。本文从基本的专业术语到各种容器文件类型(包括MP4、CMAF、MPEG-TS、Matroska)都作了详细介绍。

MSU 视频编解码器比较 2022

这是MSU 的十七个年度视频编解码器比较。

http://www.compression.ru/video/codec_comparison/2022/cloud_report.html

如何将视频的转码速度提升100倍?

本文介绍了如何通过使用多个编码器(Encoder)和多个服务器来实现视频转码的加速,以及如何使用分布式计算框架来划分和并行处理任务。同时,它还提到了一些优化技巧,例如调整编码器参数和使用更高效的编码格式等等,以进一步提高转码速度。

https://www.mux.com/blog/how-to-transcode-video-100x-faster-or-a-gordian-knot-cut

音视频编解码--数字图像系列

消息称苹果对发布AR/MR头显已准备充分

立讯独家代工、Sony独供MicroOLED、台积电独供处理器......

2023CSIG多媒体技术大会将在5月18-5月20日举行

LIveVideoStackCon2023上海站九折期优惠进行中

https://sh2023.livevideostack.cn/tickets

Instruct-NeRF2NeRF: 引导并编辑NeRF

本文提出了一种通过文本来编辑 NeRF 场景的方法。给定一个 NeRF 场景及用于重建它的多视角图像,本方法利用图像条件扩散模型InstructPix2Pix对输入图像进行迭代编辑,并同时优化底层场景,从而得到一个符合编辑指令的优化 3D 场景。

NeRF如何帮助我重新想象世界

为了训练NERF,作者收集了大量真实世界中的图像和深度数据,并使用它们来生成训练样本。然后,作者使用NVIDIA的Triton Inference Server将经过训练的NERF模型部署到云服务器上,以便将其应用于新的图像和视频。

https://developer.nvidia.com/blog/how-nerfs-helped-me-re-imagine-the-world/

为什么目前落地的主流SLAM技术很少用神经网络进行特征提取?

ICRA 2023 同济&港科大开源:高精度、实时的端到端法向量估计方法

同济大学MIAS group与香港科技大学IADC近期发表的 ICRA 2023论文 《D2NT: A High-Performing Depth-to-Normal Translator》提出高精度、实时的端到端法向量估计方法,性能超越现有 SoTA 算法,为现实场景下法向量数据集提供新的标定范式。相关代码已开源。

ICLR 2017|PIXELCNN++:通过离散逻辑混合似然和其他修改改进 PIXELCNN

PixelCNN 是一个强大的模型,因为这些条件的函数形式非常灵活。除了图像建模,PixelCNN 还被扩展到音频、视频、文本建模。本文对 PixelCNN 基本模型进行了大量修改,以简化其结构并提高其性能。

OpenGL Shader 编程基础-绘制基础图形



LiveVideoStackCon 2023上海讲师招募中

LiveVideoStackCon是每个人的舞台,如果你在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱:speaker@livevideostack.com。

音视频技术开发周刊 | 294相关推荐

  1. 音视频技术开发周刊 94期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第94期内容,祝您阅读愉快. 架构 衡量视频质量有 ...

  2. 音视频技术开发周刊 93期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第93期内容,祝您阅读愉快. 架构 Nodejs+ ...

  3. 音视频技术开发周刊 92期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第92期内容,祝您阅读愉快. 架构 从通信到AI ...

  4. 音视频技术开发周刊 91期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第91期内容,祝您阅读愉快. 架构 从头到脚撸一个 ...

  5. 音视频技术开发周刊 90期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第90期内容,祝您阅读愉快. 架构 刘歧:让人生不 ...

  6. 音视频技术开发周刊 88期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第88期内容,祝您阅读愉快. 架构 思科:2022 ...

  7. 音视频技术开发周刊 87期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第87期内容,祝您阅读愉快. 架构 如何优化Web ...

  8. 音视频技术开发周刊 86期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第86期内容,祝您阅读愉快. 架构 2019年低延 ...

  9. 音视频技术开发周刊 84期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第84期内容,祝您阅读愉快. 架构 手机K歌的人声 ...

最新文章

  1. 计算机小白学UI,小白学UI设计有什么技巧?看完这些你就明白了
  2. linux删除文件退出,在Linux中用于在移动或删除文件时使`tail -f`退出的bash脚本
  3. 如何专业化监控一个Kubernetes集群?
  4. oracle 触发器登录,【学习笔记】Oracle触发器 实现指定用户登录oracle案例
  5. 通道Channel-使用NIO 写入数据
  6. 设计模式:依赖倒置原则
  7. IIS安装与部署,站点的部署与配置
  8. 链接了dpdk的进程启动core在 Illegal instruction
  9. 外网访问畅捷通,利用神卓互联内网穿透访问公司内网主机
  10. 《刘毅突破英文词汇3000》Vocabulary fundamental 分课音频 下载
  11. android 生成bks_在Android上实现SSL通信(二)
  12. 半导体PN结的工作原理
  13. 【转】MapGIS K9基础系列(二)
  14. Pandas08--文本数据
  15. openstack部署过程5
  16. 《铸梦之路》帧同步卡牌放置手游(斗罗大陆武魂觉醒、上古王冠)
  17. 3d打印英语文献_多材料的增材制造(3D打印)
  18. ZXing生成二维码,条码,logo二维码
  19. C++ strcpy strcpy_s strncpy strlcpy
  20. RTP-RTCP协议分析

热门文章

  1. 一文搞懂均匀分布、高斯分布、瑞利分布、莱斯分布(含MATLAB代码)
  2. three.js入门——画一个3D正方体
  3. 二极管专题:二极管的反向恢复时间(动态特性)
  4. P-C P-S -1
  5. matlab 生物信息学工具箱,Matlab生物信息学工具箱新增功能
  6. 光电隔离电路设计方案(六款基于光耦、AD210AN的光电隔离电路图)
  7. Opencv VideoCapture读取高帧率摄像头
  8. Android-skin-support换肤框架使用指南
  9. Oracle清理归档日志dbf文件
  10. 服务器维护后稀有会马上刷新么,创造与魔法 | 维护完快速进服指南amp;必刷稀有物介绍...