2019独角兽企业重金招聘Python工程师标准>>>

一. Dreamwriter产生:中国第一家

1. 机器人新闻的产生背景:

2. 机器人新闻的发展历程:
2001
谷歌实现个性化新闻推荐,开创了用机器选编新闻的先河
2006
美国汤姆森公司用机器人记者撰写经济和金融方面的新闻
2008
路透社的Open Calais在校对界大显身手
2011
Narrative Science公司机器人用算法把数据转化成财经和房地产报道
2012
《华盛顿邮报》新闻核查机器人Truth Teller
2013
纽约公共广播的数据新闻团队制作土温传感器,准确报道了美国东岸蝉的回迁
2014
AI公司的机器人Wordsmith针对读者生产定制版内容
2014.3
《洛杉矶时报》机器人Quakebot在地震发生三分钟后自动生成和发布了报道。除了灾难新闻,《洛杉矶时报》还开发出快速发布犯罪新闻的机器人
2014.4
《卫报》#Open001机器人生产出靠算法编辑的纸质报纸
2014.7
美联社全面利用机器人Wordsmith写作,仅需0.3秒就可以撰写、发布上市公司盈利报道,还能定制多种语言风格
2015
法国《世界报》和Syllabs公司合作,用机器人记者报道了选举活动
2015.8
《纽约时报》的机器人编辑Blossom每天会从300多篇文章中挑出“潜力股”,推荐给编辑。其平均点击量是普通文章的38倍

2015年9月10日,腾讯财经推出了国内第一篇由Dreamwriter撰写的“机器人新闻”
2015.11
新华社推出“快笔小新”, 从事体育和经济信息报道
2016.5
阿里巴巴与第一财经联合推出“DT稿王”,其写稿“多、快、好”
2016.8
《今日头条》推出Xiaomingbot, 实时撰写里约奥运会新闻稿件
2016.8
《华盛顿邮报》采用写稿软件Heliograf报道里约奥运会,几秒钟即可生成并发布一条Twitter新闻

新闻机器人分类 
选题、写稿、编辑校对、事实核查
写稿领域
财经、体育、灾难、犯罪、选举
发展趋势
时间更快、定制化、辐射纸质报纸

3. 写稿机器人:

腾讯为什么发展比国外晚、且局限在写稿领域?

“国内新闻机器人本身发起就比国外晚,而国外的媒体更愿意和技术结合。” -刘康(Dreamwriter项目负责人、腾讯财经主编)

在国内,腾讯为什么首先研发出写稿机器人?

“首先是因为腾讯既是一家互联网公司又有自己的媒体业务,写作是媒体的,技术开发是互联网公司的。其次,腾讯的企业文化就是鼓励创新和包容创新。在QQ之后,腾讯还能自我否定推出微信。此外,腾讯有许多创业孵化项目,为创新提供人员和资金。” -刘康、郭峰(Dreamwriter项目成员、腾讯财经频道编委)

二.Dreamwriter的生产流程

Dreamwriter进行写作的整个流程主要经历以上五个环节:数据库的建立、机器对数据库的学习、就具体项目进行写作、内容审核、分发。

通俗来说,即是腾讯要先通过购买或自己创建数据库,然后让Dreamwriter机器对数据库内的各项数据进行学习,生成相对应的写作手法,全部学习完之后便可以进行与数据库相关联的新闻事件的报道写作,写作完成后经过审核环节,最后通过腾讯的内容发布平台到达用户端。这个过程中有几个值得我们关注的:

1.数据库:Dreamwriter写作的基石

机器人写作的重要前提是数据库的购买和建立。没有数据库,机器也无法自动量化生成生动的文章。目前,腾讯已经购买了大量的国内外数据库。例如从15-16赛季开始,腾讯买断了五年NBA在中国大陆市场新媒体的独播权,同时采购了NBA的全套数据。据刘康介绍,购买NBA的数据是因为NBA的数据最详实(球赛的每一小节的数据都能实时传送过来)。数据越详实、“颗粒”越细致就越适合机器抓取生成文章。另外,除了大量购买外来数据库,腾讯公司自身也有丰富的数据库资源,比如腾讯开发的股市行情APP“自选股”,本身就是一个股市、股民信息的数据库。

2.机器学习:写作能力的培养过程

机器的写作能力不是天生就有的。有了某一项目的数据库,机器就要进入最关键的下一步“机器学习”。所谓机器学习,即是专门的技术人员通过算法设计和数据分析技术让Dreamwriter去理解数据库。这种理解不只是对数据本身的理解,还要理解每一项数据所对应的写作模板。因此,这也要求技术人员不断丰富写作模板。

采访中,刘康举了一个例子:“体育新闻报道要求欣赏到其中的细节,因此Dreamwriter要把每一个点都打得很‘碎’,最后‘组合’起来。比如说报道奥运会的跳水比赛,这是Dreamwriter表达最生动的一个范例。比赛中,每一个运动员都一套专业得分,包含了走板、空中姿态、入水水花效果等。在Dreamwriter学习过程中,它把每一步的得分都打散了,在数据库里随意组合抓取,同时综合赛事本身的规则,最终把这些分数还原成一套表述。”刘康介绍,目前Dreamwriter还拥有一套“连接词数据库”,因此在写作时形成了一套自己的章法,几乎相当于人工写作。

机器学习的过程并不是一蹴而就,学习的时间取决于项目的大小。类似于NBA这样的体育赛事,大概需要机器学习一个多月的时间,并且这样的学习是没有终点的。

3.写作

刘康表示“Dreamwriter没有采写新闻,数据库都是公开的,只是编辑整理一下。”“其中,体育和财经比较适合应用自动化写作。突发性社会新闻比较难以预期,而财经方面什么时候发财报,什么时候出GDP数据,都有很强的预期性。这跟体育有很大相似性,开球和结尾时间是一定的,各种球员的数据也基本完整。”

Dreamwriter根据财经报道和体育报道的不同特点开发了双系统平台。因为财经有自己的表达方式和计算模型,而体育偏向于深度表达和赛事报道。两个体系不一样,因此针对两个平台开发了不同的系统。在表达清楚新闻内容的同时,针对用户的不同喜好,还推出精简版、民生版和研判版等不同风格的稿件来满足用户需求。

4.有待完善的后期审核与分发环节

大多数互联网信息的发布都会经过一道审核的过程,不同媒体的审核机制不同。不过,目前Dreamwriter团队并无较系统的审核机制,甚至基本不涉及对其内容进行发布前审核的工作。进行此项工作的是腾讯的风控团队,他们负责对所有腾讯资讯平台上的内容进行政治性把关、事实性和合法性核查,并不专门对Dreamwriter的文本本身进行审核。

另外,分发环节也不在Dreamwriter团队工作内容中,现由腾讯专门的分发团队在负责。

三.Dreamwriter的发展趋势

一年时间,Dreamwriter从1.0发展到 5.0。其中,每一版都会加入一项复杂的技术。而每一次的技术迭代都会给内容生产带来改变。

除了通过技术实现功能上的创新,像Dreamwriter这样的机器人写手还可进一步开拓互联网信息市场:

一是可以提供互联网下UGC的新闻信息服务。机器人如果可以从微博、微信等UGC平台上获取新闻素材进行自动写稿,将有助于编辑记者很快发现热点。

二是可以利用语音技术深入新闻信息稿件播报等领域。

三是创新性写作。未来的新闻机器人或计划把来自于旗下人工智能软件的新闻内容,无缝融入到人力记者制作的内容之中,让读者无法分辨到底是由记者采写,还是机器人所写。

四是读者细分管理。新闻机器人通过对用户阅读习惯、点击率等数据的追踪与分析,可以准确地描述出客户需求,为读者定制个性化的内容服务。此外,还可以通过智能对话系统与用户进行交互,从而完成读者的细分和内容的精准推送。

五是满足用户对长尾内容和个性化内容的需求。新闻机器人可有效提升新闻产出的效率,新闻生产的“量变”可带来新闻服务的“质变”,满足了受众对新闻资讯的“长尾”需求。

四.Dreamwriter引发的思考

1.标准化与个性化

从Dreamwriter和其他机器人写作案例可以看出,机器人最大的优势在于高效。并且这种量变还带来了新闻的“质变”,满足了一些受众对于新闻的长尾需求。然而,工业化生产也是一把“双刃剑”,建立在分工和专业基础上的标准化生产,一方面提高了效率,另一方面也带来了内容产品的模式化、刻板化和单一化弊病。机器人撰写的作品虽然精准,但总体来看还是缺乏“人情味”,并且在题材、体裁上目前还很局限,缺少人为创作的灵光闪现和艺术之美。虽然目前腾讯Dreamwriter在个性化写作上有不少成功的探索,但是技术能够发展到什么程度不可预知。机器人写作的意义到底在于什么,是标准化带来的高效还是个性化带来的定制?这之间需要一个平衡。

2.是否解放了人力

刘康在采访中表示,Dreamwriter的意义便是解放了一大部分记者编辑的人力,让他们不再花时间盯公司财报和证监会的网站,但研究者提出的问题却是,即使在内容生产环节解放了人力,在后期的审核、编辑环节人力的分量是不是并未减少甚至提高了呢?刘康给我们的答案是,后期审核很麻烦,他们虽然有一套机制,但Dreamwriter团队基本不会插手这方面的工作,同时也不会对机器人的稿件进行加工润色。但是根据一些国外机器人写作的经验我们发现,有的媒体会对机器人写作的产品进行人工审核或编辑,例如美联社。哥伦比亚大学新闻学院导师Tom Kent曾在文章中说:“机器和数据出错时不可避免的,但一旦出错可能就会导致成千上万的新闻稿件发生错误,因此在进行写作之前需要彻底对其进行审查,在稿件生成之后,也需要编辑在发布之前对其进行核查。即是说,我们所看到的机器人写出的作品都或多或少带有人力审查的痕迹。”

3.写作伦理问题

一旦涉及数据库,就会产生伦理问题的争议。Dreamwriter在写作的时候会抓取微博上的网民观点,当问到这会不会涉及网民隐私的时候,刘康表示不会,因为Dreamwriter抓取的网民数据都是网民在公开平台上发布的公开言论,不涉及隐私问题。但除此之外,机器人写作也可能会有其他设计伦理道德的争议,比如随着技术的发展,机器人写作可以向图片新闻、视频新闻发展,但是这类新闻的伦理问题就更复杂了,如何去抓取真实的、不侵犯他人权利、不伤害他人的图片或视频,这个边界目前还没有完善的解决办法。

4.数据库权威性和真实性

刘康表示,官方数据默认是权威的。他们在使用时会有一个权重评级,如果总是不权威,他们会下调权重评级,这是一个动态衡量的过程。

他们还会有备用的数据库。比如里约奥运会的报道,他们会以最快速度抓取原始库,但还有一个自己的备用库,以便核实。

5.人工智能在新闻领域的运用

刘康说,上次有人提出一个概念叫弱人工智能,这是在说实话。现在没有多少真正的AI ,只能说是一个方向。

五.结语

国内的人工智能目前还停留在比较初级的应用阶段,多以财经和体育新闻为主,体裁上基本局限于快讯、短讯和财报。我们距离真正的人工智能的新闻领域应用还有相当距离,正如刘康在访谈中所言,我们现在仍身处“弱人工智能”阶段,未来的AI发展仍有相当程度的可变性。

不论国内还是国外,目前的机器人写作还是对重复性较高的人力劳动的替代,把人力从繁琐的劳动中解放出来,从事具有创新要求和需要发挥想象力的工作,专注于深度挖掘和思考。腾讯财经认为理想的状态是未来每个媒体人可以配备一个机器人助手。不过虽然机器人不会完全取代记者,不可避免的是,它的出现仍会淘汰掉一部分工作,记者们也需要不断适应这个新的工作伙伴,取长补短,为读者提供更精准、快速、也更有人情味的新闻是智能化时代媒体内容生产的发展方向。现阶段人工智能的所有新闻实践背后都离不开人类,无论是简单的模板内容填充还是海量的数据抓取、新闻核查还是聊天机器人互动,其背后都需要人类设计智能系统和人工训练机器人。

不同于国外的媒体引领创新趋势,我国的机器人写作乃至AI项目更多的是在腾讯、百度、今日头条等互联网科技公司产品,而国内的大多数媒体在科技创新方面发展起步较晚,如何缩小和国外的创新差距是中国媒体今后将会面临的重要命题。

本文摘选自人大新闻系新闻编辑课程调研报告;研究小组成员:陈钟昊 崔灿 王睿路 张研

调研目的:
研究者通过对腾讯新闻机器人Dreamwriter的运行原理、新闻生产流程、未来发展趋势等方面的调研,试图把握Dreamwriter进行自动化新闻生产过程中的必备要素,以及每一环节的具体特征,包括其中存在的问题,进而预测我国机器人新闻的未来发展前景,为媒体创新提供参考。

调研方法:
1. 文献资料研究:
梳理有关机器人新闻的国内外相关文献,结合Dreamwriter的具体情况进行分析解读。
2. 访谈法:
对Dreamwriter项目负责人、腾讯财经主编刘康先生和Dreamwriter项目成员、腾讯财经频道编委郭峰先生进行访谈,获取相关一手信息,从访谈中探究Dreamwriter的运作机制。
另外,调研辅之以对部分Dreamwriter撰写的作品进行个案研究。
注:文中引号皆来自小组采访

参考文献:
[1] Aviva Rutkin. Rise of Robot Reporters: When Software Writes the News. New Scientist, Volume 221, Issue 2962: 22.
[2] 刁毅刚, 陈旭管. 采访手记:传媒业融合人工智能,互联网企业行在路上[J]. 中国传媒科技, 2016, 09: 12.
[3] 李骏. 欧美新闻机器人的“尝新”观察[J]. 传媒评论, 2016, 09: 67-68.
[4] 王悦, 支庭荣. 机器人写作对未来新闻生产的深远影响——兼评新华社的“快笔小新”[J].新闻与写作, 2016, (2): 12-14.
[5] 熊立波, 钟盈炯, 林波等. “快笔小新”与机器人写作[J]. 新闻与写作, 2016, (2):10-12.
[6] 徐曼. 国外机器人新闻写手的发展与思考[J]. 中国报业, 2015, 23: 32-34.
[7] 张海霞. 机器人写作时代新闻从业者的应对[J]. 新闻战线, 2016, 21: 110-112.

(来源:RUC新闻坊(微信号rendaxinwenxi))

转载于:https://my.oschina.net/aibati2008/blog/968541

腾讯Dreamwriter:自动化新闻发展之路相关推荐

  1. 软件机器人引流办公室工作流程自动化的发展之路

    今天的工厂比起30年前的工厂自动化程度是极大地提高了,有了流水线工业机器人和各种各样的实体机器人,都能够帮助我们更高效地完成工作.但在办公室里面,我们所做的事情,比起10年前.20年前.30年前,没有 ...

  2. 万物智联下,腾讯云IoT的差异化发展之路“新”在何处?

    导语 | 科技向善是头部公司当仁不让的壮举,物联网被认为是全球新一轮科技革命与产业变革的核心驱动,而受益于良好的外部环境及市场前景,物联网产业在今后几年将继续保持快速增长.那么物联网当前的发展现状到底 ...

  3. 自动化新闻写作机器人:会不会导致记者失业

    科技的发展,已经彻底改变了互联网的世界.搬砖,盖房子可以让机器人全程运作.在媒体文化领域,则出现了新闻写作机器人.2015年9月10日,腾讯财经开发的自动化新闻机器人撰写的新闻稿件"< ...

  4. BAT解密:互联网技术发展之路(5)- 开发层技术剖析

    BAT解密:互联网技术发展之路(5)- 开发层技术剖析 1. 开发框架 在系列文章的第2篇"BAT解密:互联网技术发展之路(2)- 业务如何驱动技术发展"中我们深入分析了互联网业务 ...

  5. 搜狐微博改版 走差异化发展之路

    从没有一个互联网公司的负责人像搜狐张朝阳一样重视微博.研究微博,并参与到微博互动之中.而张朝阳也把自己的个性成功传递给搜狐微博,使其成为互联网三大微博网站中最独特.最个性的微博之一,例如不限字数,和搜 ...

  6. BAT解密:互联网技术发展之路(4)- 存储层技术剖析

    BAT解密:互联网技术发展之路(4)- 存储层技术剖析 1. SQL 即关系数据.前几年NoSQL火了一阵子,很多人都理解为NoSQL是完全抛弃关系数据,全部采用非关系型数据,但事实经过几年的试验后, ...

  7. Nutanix企业云助力广播传媒的融合媒体发展之路

    本文讲的是Nutanix企业云助力广播传媒的融合媒体发展之路[IT168 评论]平面媒体.广播电视和互联网多媒体不断丰富着人们的精神生活,但在移动互联迅猛发展的浪潮中,如何进行发展与转型,成为许多传统 ...

  8. 国际农化巨头战略转移-丰收节贸易会:未来农化发展之路

    国际农化巨头战略转移-丰收节贸易会:未来农化发展之路 新闻中国采编网 中国新闻采编网 谋定研究中国智库网 经信研究 国研智库 国情讲坛 哲商对话 万权采编:"通过跟踪近年来农化公司发展历程, ...

  9. BAT解密:互联网技术发展之路(1) - 技术发展的驱动力

    BAT解密:互联网技术发展之路(1) - 技术发展的驱动力 互联网行业是一个快速发展.快速变化的行业,新的业务.新的机会层出不穷,新的技术如雨后春笋般冒出,NoSQL.大数据.云.Node.js.Do ...

  10. 2019年机器学习:追踪人工智能发展之路

    2019年机器学习:追踪人工智能发展之路 https://www.cnblogs.com/DicksonJYL/p/9809748.html [导读]"智能助理"的时代已经到来了. ...

最新文章

  1. keras 的 example 文件 mnist_hierarchical_rnn.py 解析
  2. 基于数组的无锁队列(译)
  3. Catalan数推导(转载)
  4. php不支持定时器么,PHP没有定时器?
  5. vivoiqooz1鸿蒙系统,iQOOZ1评测:vivo新一代性价比神机
  6. Celery参数详解、配置参数
  7. mysql join buffer_MySQL cache之join buffer的优化
  8. python ddos 检测系统_python 检查是否存在ddos攻击
  9. 大数据_Hbase-(知识点回顾)---Hbase工作笔记0010
  10. Java常用算法三:01背包问题
  11. Windows下安装最新的Apache+PHP+MySQL方法--记录方便自己参考
  12. MySQL InnoDB存储引擎为什么要用自增的主键?
  13. mysql 事务_详解mysql如何做事务
  14. 热敏电阻 温度 电阻换算
  15. 百度诉被奇虎科技有限公司(以下简称北京奇虎公司)、奇虎三六零软件(北京)有限公司(以下简称奇虎三六零公司)不正当竞争纠纷一案
  16. 解决电脑屏幕变黄问题
  17. 养生之道——》早上刷牙干呕&&慢性烟炎
  18. python类的封装是什么意思_python类封装 python中将函数和变量封装成类的好处
  19. Linux 2.6下Driver开发的34个变化[转贴]
  20. TCP/IP协议基础(转)

热门文章

  1. 蓝桥杯选拔赛:整数拼凑问题
  2. (附源码)django学生就业管理系统 计算机毕设24237
  3. 【Git】使用 git stash 命令存档和恢复代码文件
  4. Windows11 WSL2 Ubuntu18.04环境中配置cuda及PyTorch
  5. JAVA基础面向对象
  6. jar包调用java -jar报错“Cannot run program“
  7. 爬虫:实现自动爬取百度图片
  8. stm32学习笔记 PWR
  9. 雅虎正式任命硅谷投资人韦伯为公司董事会主席
  10. “深耕”与“广种”并举,华为加速释放数字生产力