简介:搜索是电商行业业务转化中最重要的功能,那你了解其中的技术实现原理吗?一起来了解基于多年淘系全量数据和知识库深入优化的电商行业实体识别的能力吧,在查询分析和类目预测中能带来哪些优化效果那~

实体识别功能介绍

实体识别,全称命名实体识别(Named Entity Recognition,简称NER),指对电商查询词中的具有特定意义的语义实体进行实体词打标识别其中的品牌、品类、品类修饰、型号、款式等40种类别 。查询分析根据识别的结果,依据实体类型的权重对查询词进行改写,使得召回的文档符合查询的意图。

类别

普通词

材质

风格

款式元素

颜色

品牌

功能功效

尺寸规格

品质成色

场景

人群

套装

时间季节

型号

新品

系列

营销服务

地点地域

人名

文娱书文曲

机构实体

影视名称

游戏名称

数字

单位

品类

新词

修饰

专有名词

品类修饰词

符号

前缀

后缀

赠送

否定

代理

开放搜索实体识别优势

基于多年淘系全量数据和知识库深入优化电商行业实体识别能力,解决品牌更新快歧义大,品类存在修饰关系,品牌品类搭配关系等问题。解决尤其在中文上由于缺乏天然分隔符,面临边界歧义、语义歧义、嵌套歧义等困难。

实体识别在查询分析中作用

1.作用于query改写:

开放搜索查询分析可以改写两个query,第一个query更精准,第二个query减少了参与召回的term,旨在当更精确的召回结果数不足时,用第二个query进行扩大召回。query改写主要根据实体的重要性,召回时保留重要性高的实体词,对重要性低的部分不影响召回,只影响算法排序。

实现方式

实体重要性目前分为高、中、低三档。其中“品牌、品类”是在高档,也就是最重要的;其次“风格、款式、颜色、季节、人群、地点…”处于中档;最后“尺寸、修饰词、影响服务、系列、单位…”处于低档,可以丢弃不参与召回。

2.与类目预测一起使用

query中不同的实体对类目的影响是不一样的,因此,当原query没有类目预测的结果时,会根据一定的规则,去掉和类目意图无关或者相关度低的词后,进行类目预测,这对长尾query的类目预测会有很大的帮助.

示例:

杨幂(人名)同款(后缀)春季(时间季节)修身(款式元素)连衣裙(品类)”丢词后的query按照优先级排序分别为:

春季修身连衣裙

春季连衣裙
修身连衣裙
连衣裙

系统会按照上述顺序依次查询类目预测的结果

更多类目预测功能详介绍:https://help.aliyun.com/document_detail/69036.html

电商行业增强版实体识别能力再升级

开放搜索打造独有的行业智能搜索解决方案,推出电商行业增强版,其中在实体识别能力上进行了再升级,使得实体打标效果更好,可以更精准的定位用户搜索意图满足商品搜索需求。

  • 现有框架知识库更新

基于老模型链路重新构建全量知识库,F1 69 -> 74

  • 标注训练数据,使用神经网络模型

标注10万条数据,耗时4个月,BiLSTM-CRF模型,F1 74 -> 78

  • 神经网络模型结合知识库

技术创新GraphNER框架结合监督模型与知识库,F1 78 -> 82

实体识别干预词典

业务场景不同,实体识别语义也是不同的,为了方便用户使用,开放搜索提供实体识别干预词典,供用户自定义词的语义,目前实体识别的干预主要包括两个:一是对实体识别结果本身的干预,二是实体类型重要性的干预。当实体识别的结果不准时,应该通过实体识别的干预词典的配置来进行干预。通过创建实体识别干预词典,并在查询分析中实体识别配置相应的干预词典,就可以干预实体识别功能。

例如:业务特殊专有名词,需要进行实体识别干预。

用户搜索“小熊 (Bear)婴儿指甲刀护理套装",其中“小熊”“bear”实体识别结果为:普通词,但实际业务上“小熊(bear)”是一家母婴品牌,这时可以使用干预词典,设置为“品牌”,从而影响召回排序的效果。

实践后的搜索性能对比

1. 搜索“荷兰美素佳儿婴幼儿奶粉“分词效果
• Before:“荷兰 美 素 佳 儿 婴幼儿 婴 幼 儿 奶粉 奶 粉”
• After: “荷兰(地点地域) 美素佳儿(品牌) 婴幼儿(人群) 奶粉(品类)”

2. 搜索“夏季新款凉鞋男童”
• Before:3个召回结果,
• After:22个召回结果
利用实体识别功能:定位搜索关键词
实体识别:“夏季”时间季节,“男童”人群;“新款"新品;;“凉鞋”品类;

Query1: “凉鞋”“夏季”“男童”;

Query2:“凉鞋”



阿里云搜索相关产品推荐

开放搜索(OpenSearch):基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过内置各行业的查询语义理解、机器学习排序算法等能力,提供充分开放的引擎能力,助力开发者快速搭建更高性能、更高搜索基线效果的智能搜索服务

了解产品详情:https://www.aliyun.com/product/opensearch

了解更多电商行业搜索解决方案:https://www.aliyun.com/page-source//data-intelligence/activity/opensearch

原文链接:https://developer.aliyun.com/article/784865?

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

电商搜索能力解读-实体识别(NER)相关推荐

  1. 阿里云技术专家解读 | 行业首创电商搜索模板

    讲师:徐希杰–阿里巴巴技术专家 视频地址:https://developer.aliyun.com/live/246673 电商行业模板介绍:https://www.aliyun.com/page-s ...

  2. 万字长文解读电商搜索——如何让你买得又快又好

    文章作者:姚凯飞 Club Factory 推荐算法负责人 内容来源:作者授权发布 出品社区:DataFun 注:欢迎转载,转载请注明出处. 一. 概述 一个产品的搜索功能,是用户快速触达所需信息的通 ...

  3. 逐行讲解CRF实现命名实体识别(NER)

    文章标题 本文概述 NER介绍 代码详解 任务 导入库 加载数据集 构造特征字典 数据处理 模型训练 模型验证 模型参数 备注 随机搜索RandomizedSearchCV 本文概述 使用sklear ...

  4. 阿里巴巴电商搜索推荐实时数仓演进之路

    分享嘉宾:张照亮 阿里巴巴 高级技术专家 编辑整理:郑银秋 出品平台:DataFunTalk 导读:今天分享的内容是阿里搜索推荐数据平台研发团队在实时数仓的一些探索,围绕着团队在数仓上基于Flink ...

  5. 电商搜索“优化商品排序”实践方案

    一.案例背景 某导购类电商APP,与淘宝天猫等一线商家合作,亿级商品索引量,类目和子类目多层嵌套,商品有不同子款式和尺码,搜索和筛选需求复杂. 通过采用分销+券模式,优惠券帮助普通C用户降低了单品价格 ...

  6. 电商搜索“想用户所想,提高搜索结果质量”实践方案

    案例背景 国内某头部母婴垂直类电商平台,致力于提供多元的产品和服务,满足中国年轻家庭知识获取.交流交友.记录成长和消费购物的四个核心需求,营收主要来源于商城部分,我们之前提到,大部分垂直类电商搜索转化 ...

  7. 用Elasticsearch构建电商搜索平台,一个极有代表性的基础技术架构和算法实践案例(转)

    转自:https://blog.csdn.net/jek123456/article/details/54562158 随着数据规模的爆炸式增长,如何从海量的历史,实时数据中快速获取有用的信息,变得越 ...

  8. 电商搜索全链路(PART II)Query理解

    作者 | kaiyuan 整理 | NewBeeNLP 大家好,我是kaiyuan.电商搜索全链路系列文章们躺在我的草稿箱里已经N久了,上一篇整理还是在上次,错过的小伙伴点击传送门:电商搜索全链路(P ...

  9. 【命名实体识别(NER)】(1):命名实体识别综述

    什么是命名实体识别? 命名实体识别(Named Entity Recognition,简称NER),又称作"专名识别",是自然语言处理中的一项基础任务,应用范围非常广泛.命名实体一 ...

最新文章

  1. win七系统如何卸载MySQL_win7系统卸载SQL2008R2数据库的详细教程
  2. 目标检测--吴恩达深度学习记录
  3. java 检测ie版本更新_[Java教程]有关IE版本检测_星空网
  4. Linux 查找目录下大于*M的文件
  5. python下载包没用_Python下载各种功能包出问题
  6. 迅捷PDF编辑器如何编辑PDF文字图文教程
  7. iRedMail批量用户添加命令
  8. 1-65535字符集
  9. js编写五种基础排序(冒泡排序、选择排序、插入排序、快速排序、sort)
  10. 微信小程序 实现带刻尺度滑块
  11. 企业降低包装成本的13种简单方法(下篇)
  12. 未明学院:管培生刚入职就被裁?校招的管培生真的那么高大上吗?
  13. 【数字电路抢救】3 逻辑函数的卡诺图化简
  14. 使用笔记本的不良习惯
  15. Revit: AR and VR Workflows Revit:AR和VR工作流程 Lynda课程中文字幕
  16. 既是剧中人,亦是局外客
  17. verilog的免费编译器
  18. 希望各位博友解答一下
  19. 2022-2028全球与中国应急服务5G技术市场现状及未来发展趋势
  20. 经纬财富:银价继续承压 今晚关注消费者指数 东莞

热门文章

  1. 华为手机可以下载鸿蒙系统吗_华为鸿蒙手机系统首次曝光,汉字界面简洁明了...
  2. sqlite工具类 java_Java之泛型、集合工具类
  3. CentOS6.7 时间同步
  4. 八、探索性数据分析——数字化探索
  5. Fast R-CNN: 我变快了,也变强了!
  6. js uri解码_js进行URL编码(escape,encodeURI,encodeURIComponent)
  7. Oracle11g rac监听,关于oracle11g RAC 监听器使用中出现的no services以及no listener分析...
  8. java 排序工具类_List 排序 Java工具类详解
  9. fastcgi pass php-fpm,Nginx中fastcgi_pass的配置问题
  10. mybatis初始化过程