大数据的特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。大数据搜索引擎的主要挑战在于:海量处理规模、多字段多类型数据融合、高效的索引压缩技术及毫秒级的索引更新技术。

JZSearch大数据搜索引擎是灵玖软件联合中科院与北理工的信息检索专家,针对大数据搜索业务需求而打造的一套搜索引擎,具有专业精准、高扩展性和高通用性的特点。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持邻近搜索、负面搜索、语义关联搜索,可提供各类数据库的实时搜索服务,并支持少数民族语言。目前已经应用于中国邮政搜索引擎、河北省标准搜索引擎、富基融通(纳斯达克上市公司:EFUT)商品搜索以及新疆维文搜索引擎。

主要功能:

搜索基本功能包括:

1多字段关联搜索:非结构化与结构化字段的关联搜索,支持指定字段的搜索,也可以搜索多个字段,以及复杂表达式的综合搜索;

2 指定字段排序:可以按照任意指定字段的排序;

3 精确搜索:支持精确匹配以及模糊匹配,默认为模糊匹配,忽略字母大小写,采用双引号进行精确匹配;

搜索特色功能包括:

1 内嵌正负面情感等极性分析,可以搜索任意对象的正负面结果;

2 语义联想搜索:如搜索“马铃薯”可以同时返回“土豆”的内容,搜索“北京市”可以返回“北京”或者“首都”的内容;语义联系词表用户可以自行根据专业知识定制;

3 搜索结果去重:按照指定字段对搜索结果进行去重;

4 邻近搜索功能:可以要求两个关键词必须在一定的词场范围内。

5 内嵌了智能分词系统。

6 数据库实时同步:数据库增删改10秒内即可同步到搜索引擎中

搜索维护功能包括:

1 支持增量索引:系统可以在搜索服务不停的前提下,继续索引新的数据,索引完成后,可以搜索新的数据;

2 自动备份与恢复机制,在建立索引和自动优化之前,在当前索引文件被破坏无法搜索的前提下,系统将自动恢复上次搜索正常的备份文件;

3 自动缓存机制:系统自动保存最近常用的搜索条件与结果,再次搜索时将直接推送搜索结果内容,可以将搜索响应速度提升30%以上;缓存会随着新的索引数据自动更新,不存在缓存延迟问题;

4 自动优化机制:在系统索引碎片较多时,系统会自动优化归并;

5 屏蔽指定文档、指定关键词的搜索服务,也可以恢复屏蔽信息;

6 实现的是多线程搜索服务;

7 兼容当前所有厂商的数据库系统,其中SQL Server, Oracle, MySQL,DB2等。系统支持多表关联搜索;支持Windows/Linux/FreeBSD等操作系统,支持C/C++/C#/Java二次开发。

python大数据搜索_【大数据搜索】JZSearch大数据搜索引擎相关推荐

  1. 数据科学家数据分析师_站出来! 分析人员,数据科学家和其他所有人的领导和沟通技巧...

    数据科学家数据分析师 这一切如何发生? (How did this All Happen?) As I reflect on my life over the past few years, even ...

  2. python大数据平台_基于腾讯位置大数据平台的全球移动定位数据Python爬取与清洗...

    前不久投稿了一篇论文是以腾讯位置大数据为基础进行人口空间化研究的,但是还未见刊,见刊后会给大家分享下具体的研究方法. 首先打开腾讯位置大数据星云图链接:https://xingyun.map.qq.c ...

  3. python图形绘制星空图_如何将枯燥的大数据呈现为可视化的图和动画?

    在回答之前,先简单的介绍我自己,我是澎湃新闻美数课(数据新闻)栏目的课代表,擅长做数据可视化视频和信息图. 喂喂喂!憋看到我这个身份,就跑啊,下面有一吨实用干货等你~~~ 前段时间做了一个关于诺贝尔人 ...

  4. jquery数据折叠_通过位折叠缩小大数据

    jquery数据折叠 Sometimes your dataset is just too large, and you need a way to shrink it down to a reaso ...

  5. echarts 大屏可视化_看似复杂炫酷的数据可视化设计,用这波神器轻松搞定!

    数据大屏与数据可视化 数据可视化是目前对数据展示最常用的方式.数据的可视化设计有助于将复杂的数据,用最易理解的方式展示在用户的面前. 数据可视化在中后台的设计中很常见,通常主要用于分析和决策,对实时性 ...

  6. 内存 增量数据持久_内存中数据模型和大数据持久性

    内存 增量数据持久 ORM框架在需要与关系数据库进行交互时可以帮助开发人员. 对于关系数据库,有许多出色的ORM框架,例如Hibernate和Apache OpenJPA,其中一些确实很棒. 如今,大 ...

  7. informatica数据脱敏_助您首个大数据项目破茧成蝶的实践指南

    自从本世纪初软件应用开始在整个业务流程中盛行以来,一个不争的事实就是:数据改变了我们的工作方式.越来越多的企业认识到必须在大数据方面有所作为,但他们却并未切实规划出如何开展这项工作.而调查发现,切实展 ...

  8. 大数据相加_推动媒体融合与大数据相加发展

    深圳特区报讯 7月7日至8日,备受瞩目的第十二届中国传媒年会在贵州贵安新区东盟国际会议中心举行.本次年会以"媒体深度融合与大数据"为主题,近300名与会嘉宾深入思考研讨媒体融合与大 ...

  9. 大数据算法_【中科大】大数据算法(2020年春季)

    算法与理论是计算机科学的核心领域之一.随着大数据时代的来临,传统的算法理论已经不能很好地解决人工智能. 物联网.工业制造等领域所遇到的实际问题.本门课程主要介绍基于大数据的新型算法技术,如随机采样.数 ...

  10. 机器学习 大数据 数据挖掘_什么是机器学习? 来自数据的情报

    机器学习 大数据 数据挖掘 机器学习的定义 机器学习是人工智能的一个分支,其中包括用于自动根据数据创建模型的方法或算法. 与通过遵循明确的规则执行任务的系统不同,机器学习系统从经验中学习. 基于规则的 ...

最新文章

  1. MySQL的系统数据库是_mysql数据库系统
  2. python连数据库课程设计_python 连接操作 各类数据库
  3. springmvc学习笔记--ueditor和springmvc的集成
  4. Liver Writer打开以前的日志/页面
  5. 最最基本的框架宏使用RUNTIME_CLASS DECLARE_DYNAMIC IMPLEMENT_RUNTIMECLASS
  6. Leetcode 242. 有效的字母异位
  7. 大数据时代能否保证足够的安全
  8. 软件工程师与码农的区别
  9. IDEA 2020.3 更新了,机器学习都整上了
  10. 为-微软-重写-TechNet Library-中-Microsoft Lync Server 2010
  11. [ P1 ] 雷达相机标定基本知识
  12. php元素周期表,元素周期表 - 理视天下 - 简单学习网论坛_中高考学习交流论坛_中学生学习论坛 - Powered by phpwind...
  13. 使用Libgdx游戏引擎做的2D横版过关游戏
  14. 蒲公英音乐种子计划海选招募正式启动
  15. latex 直和 中点
  16. pixel2升级android11 开电信volte失败记录
  17. matlab 对曲线积分,matlab计算曲线积分并画出积分曲线
  18. B-010 详细解析电源滤波电容的选取与计算
  19. 腾讯自研云原生数据库CynosDB发布 兼容MySQL和PostgreSQL
  20. 电站锅炉行业PLM的可定制知识管理软件

热门文章

  1. GBase 8s 产品架构介绍
  2. 网址导航类的网站为什么会没落
  3. ExtJS 表格悬浮提示
  4. Python网易云歌单爬取(非VIP)
  5. 将多个文件夹下的文件放在一个文件下下
  6. Javascript:ES6-ES11(2)
  7. 实用的峰值检测电路实例与分析
  8. 208计算机领域,2017-208NOIP-实用算法(中国计算机学会编).doc
  9. RNA-seq 详细教程: `DESeq2` 差异表达分析(7)
  10. python判断数据_python判断数据类型的方法