近年来随着互联网、GPU/CPU硬件的发展,语音识别的准确率有了很高的提升,并开始在商业上进行应用。不管是国内百度的小度助手,还是Google Assistant、亚马逊Alexa,早已不再满足于“语音助手”的身份,在功能上开始向语音对话、内容服务、IoT设备管理等方向演进,几乎所有的互联网巨头都对语音势在必得。

人工智能慢慢步入了我们的生活,为我们带来便利的工具值得去挖掘。语音识别技术在房产市场是如何应用的呢?除了语音助手外,期望能通过语音识别功能帮助业务提升效率。本文复盘了语音识别关键词在房产中的应用,以此总结项目中的收获和不足,也期待对您有所帮助。

平台供给房源,但房源成交后,不能及时获取成交信息。所以需要从房主、经纪人、平台三方去考虑如何获取到成交信息:

  • 从房主切入,可以在房主小程序/APP提供房主停售的入口,也可以通过短信或者模板消息触达到房主,提醒房主若有成交,及时反馈给平台。
  • 从经纪人切入,可以提供反馈机制,通过成功反馈赠送积分的方式,激励经纪人主动反馈。
  • 从平台切入,平台已通过阿里的虚拟号,获得经纪人和房主的通话录音,可通过语音转文字识别出疑似成交的房源。

语音转文字

为保护房主隐私,平台从阿里购得AXB中间号,阿里提供通话录音及转文字功能,识别的文字通过接口回调到平台,依赖于阿里转文字效率,所以文字识别会有时间延迟,在识别策略中,会考虑时间的因素。有了文字后,下一步要提取关键词,识别成交房源。

关键词识别分析

1. 目标:通过录音关键词识别出成交的房源。

2. 指标:召回率和准确率是对策略质量评估的方法,可以通过召回率、准确率、误判率等检验上线后的质量评估。召回率代表策略对问题的解决程度,而准确率、误判率代表策略有没有带来其他伤害。

 召回率=识别总数/理想成交数 准确率=识别成交数/理想成交数 误判率=误判数/识别总数

3. 影响因素:

  • ①录音转文字的准确度
  • ②关键词的准确度
  • ③经纪人拨打电话的频次

①和③受外部因素制约,本次版本暂时不考虑,重心放至关键词的准确度上。

4. 需要人工干预:由于以上三个制约因素,识别的结果不一定100%准确,平台需要安排专职人员对识别结果进行人工判断,防止误判。

提取关键词

拉取3000条录音转文字数据,用Excel初步分析,过滤不需要的重复词,例如语音词、象声词、问候词等,再用Wordart(https://wordart.com/)分析,找到关键词。

1.0版本

1. 关键字提取时间:通话录音转换文字成功后,每30min对未处理的内容识别一次。

2. 识别策略:若录音内容中,涉及如下关键字,则认为该录音命中“疑似成交”关键词。

  • ①卖完
  • ②已经卖了
  • ③暂时不卖
  • ④我不卖了
  • ⑤卖了好久了
  • ⑥早都卖了

3. 增加人为审核操作,并记录处理人和处理时间

4. 识别结果中展示识别文本和录音,可随时校验结果

策略质量评估

1. 召回率、准确率和误判率分析

对上线后一天的数据进行了分析,召回了25条数据,其中19条命中成交,6条误判,还有7条数据没有识别出。

对误判数据进行分析,“卖完”这个关键词出现在误判里的频次很高,针对该关键词,下一步需要优化识别策略。

对未识别数据进行分析,“卖了”这个关键词出现的频次很大,但这个关键词争议较大,会出现在经纪人的问话中,例如:“您卖了吗?”如果用它识别,误判率会很高。

2. 功能问题

①同一房源存在多条录音,每条录音都要处理,较繁琐。

②平台上房源下架有统一接口,所以审核和下架是两个分开的功能操作,审核房源后,遵循排序规则:待处理>已处理,数据自动下沉,寻找当前房源做下架处理较繁琐。

③处理状态没有显示在列表上,不能直观看见处理结果。

1.1版本

1. 规则优化

针对1.0上线,拉了1000条录音进行分析,发现显性关键词命中率很高,所以优先判断显性关键词,若无显性关键词,通过非显性关键词和时间维度去判断,一般房子卖了,经纪人的通话都会很短。

①判断文字中是否有以下关键词,若有,则认为疑似成交:

已经卖了、暂时不卖、我不卖了、卖了好久了、早都卖了、先不卖了、不想卖了

②若无上述关键词,则判断语音时长,若时长<1min,且包含下列关键词,则认为疑似成交:

不卖了、卖了、卖完、没有了、撤了、下架、取消

2. 功能优化

(1)状态优化:列表显示状态“未处理、已成交、未成交”3种。

(2)若一个房源有多条未处理的数据,处理最近时间的一条,该房源所有之前未处理的数据状态变更为相应的状态,处理时间&处理人同理。

(3)列表刷新逻辑优化:完成“审核”后不刷新列表,仅变更状态、处理人、处理时间等相关数据。再次进入菜单,才刷新整个页面。

策略质量评估

召回率、准确率和误判率分析

对上线后一天的数据进行了分析,召回了26条数据,其中12条命中成交,14条误判,还有1条数据没有识别出。

通过上面的数据发现:增加非显性关键词+时间的识别,准确率增加,但是也召回了很多非成交数据,所以误判率也增高。虽然满足宁可错杀一千,也不能漏一个的原则,但还会拉更多的数据进行分析,优化时间维度的策略。

上述案例中,通过优化关键词策略,提高召回率,运用了策略质量评估方法,判断召回造成的影响,下一步要降低误判率。

在实际操作中,录音转文字的准确度影响也很大(见上图),我们也做了相关的数据统计,在未识别数据中,有30%的数据属于文字准确度不高导致的,这个无法避免,机器对噪音的抗噪性不够强,另外,语音识别并没有理解语义,若双方都用方言讲话,识别的准确率会更低。

语音识别,在这几年有了极大的发展,从算法到模型都有了质的变化,在加上语音领域(语音合成等)的其他研究,语音技术陆续进入工业、家庭机器人、通信、车载导航等各个领域中。本项目借助语音识别技术转文字,再通过文字关键词识别出成交房源,让语音识别在房产市场得到应用。

语音识别关键词,如何获取房产成交信息?相关推荐

  1. 基于python多线程和Scrapy爬取链家网房价成交信息

    文章目录 知识背景 Scrapy- spider 爬虫框架 SQLite数据库 python多线程 爬取流程详解 爬取房价信息 封装数据库类,方便多线程操作 数据库插入操作 构建爬虫爬取数据 基于百度 ...

  2. 腾讯逆地址解析php,腾讯地图逆地址解析,通过经纬度获取详细的信息数据

    根据腾讯地图API,以图文的方式一步一步的来说明如何获取详细的位置信息数据.具体参考腾讯地图Webservice API的简介.腾讯地图WebService API 第一步:申请开发者密钥(key)申 ...

  3. 网络舆情分析关键词怎么获取的系统平台方法

    舆情热点事件发生后,有效做好舆情应对工作的前提是先要做好舆情分析工作.一般来说,比较常见的舆情分析方式就是对舆情分析关键词进行提取,通过关键词来搜集精准有效的数据信息进行分析. 由于舆情热点产生后,会 ...

  4. python爬虫获取天猫店铺信息(更新到2020年)

    python爬虫获取天猫店铺信息 爬取需求 在天猫搜索一个关键词,然后抓取这个关键词下的相关店铺,由于taobao的反爬策略,只能爬取到第十页大概200个店铺的信息. 效果预览 最终爬取的数据用exc ...

  5. 股票level2数据接口获取逐笔成交数据的过程

    描述:通过股票level2数据接口获取逐笔成交数据的过程 地点:https://gitee.com/l2gogogo 获取过程: /// <summary> /// 获取逐笔成交数据 // ...

  6. Python 使用 twitter API 获取twitter用户信息

    Python 使用 twitter API 获取twitter用户信息 1. 概述 twitter作为国外极其大众化的社交平台,具有大量的海外用户,平台流动数据量极大,是国外人群生活数据的重要来源之一 ...

  7. 知网关键词搜索爬取摘要信息

    知网关键词搜索爬取摘要信息 由于技术不成熟,代码冗余度较高.同时代码也可能会存在错误,也请各路高人指正. 本篇文章应用范围为期刊搜索(不包括外文文献),其他内容,没有进行测试!!! 本次爬虫所采用到的 ...

  8. 如何优化亚马逊关键词,获取流量

    如果将亚马逊比作一个商场的话,那么你的店铺就相当于一个店面.所有的listing就是门.门越多流量入口就越多,销量才回提高.然而,门的位置很重要,有的在首页有的在第二页等,不同的位置,流量都是不一样的 ...

  9. Python 利用 cookie 模拟登录,爬取指定关键词的淘宝商品信息

    Python 利用 cookie 模拟登录,爬取指定关键词的淘宝商品信息-Selenium 1. 本文目标 由于淘宝网站的不断更新,以前的爬取方法都无法重现,必须需要登录淘宝网站才可以进行搜索商品.所 ...

最新文章

  1. Android 属性动画(Property Animation) ValueAnimator 的介绍
  2. 我是如何根据豆瓣api来理解Restful API设计的
  3. Leetcode 204. 计数质数 解题思路及C++实现
  4. 推荐给程序猿们好用的谷歌插件
  5. AE 模板 天使之城
  6. Storm精华问答 | Kafka在Storm中的角色是什么?
  7. Python中xPath技术和BeautifulSoup的使用
  8. windows更改pip源_windows环境下 更换pip镜像源
  9. 【恋上数据结构】冒泡排序、选择排序、堆排序
  10. 关于MySQL的存储函数(自定义函数)的定义和使用方法详解
  11. C#控制网页并自动输入
  12. 回顾:程序设计方法——结构化设计
  13. LBP—局部二值模式
  14. 【Html】 Html写静态淘宝页面
  15. 流利阅读 2019.2.2 Barbie will soon be 60—and is still going strong
  16. 暗黑类游戏的设计概念
  17. 深入浅出Google Clould Platform (1)----GCP 考证
  18. JimuReport积木报表1.1.09 版本发布,免费的企业级 Web 报表工具
  19. 上传file时accept限制文件类型pdf、doc、docx、 jpg、 png、xls 、xlsx等格式
  20. 微软:欧洲美国Windows10安装率超Win7

热门文章

  1. win7环境压缩文件utf-8编码压缩
  2. houdini入门藤曼笔记
  3. Arcgis for Js实现Spline插值、区域裁剪以及页面的轮播效果
  4. 使用BeautifulSoup爬取 下厨房,并包存 txt 到本地自定义目录下
  5. 技术研究 | 我所了解的物联网设备渗透手段(硬件篇)
  6. web前端开发培训学院,教你用CSS清除样式
  7. 左箱盖的机械加工中心工艺规程编制和专用夹具设计
  8. 一款既有颜值又有实力的Edge浏览器插件——WeTab
  9. JS实现复制截图,自动显示图片,并上传图片到后端,源码自取
  10. 安卓9.0trim相关源码分析