目录

01、ElasticSearch-学习总结

02、Springboot+ElasticSearch构建博客检索系统

01、将MySQL数据同步到ES中

02、SpringBoot集成ES

03、本周学习计划


第一次周会

大数据总监、搜狐四年-中国搜索

【mapReduce】sql
大数据代表:Hadoop、spark、es、flink
zookeeper、kafka、HBASE、

集群规模太大,会出现小数据量不会出现的问题。

高考项目:上千万数据量。学习大数据官方文档,解决方案...

软件版本太多了,版本变化非常多,兼容性问题。
需要沉淀!

发挥趋势:大数据+人工智能、大数据+xxx...需求较多。

深入项目中去,把问题研究透,就业优势会大一些。

log存储到hdfs或es

es同步:id号、时间戳

es安装kopf插件

01、ElasticSearch-学习总结

  1. ElasticSearch-学习笔记01【ElasticSearch基本介绍】【day01】
  2. ElasticSearch-学习笔记02【ElasticSearch索引库维护】
  3. ElasticSearch-学习笔记03【ElasticSearch集群】
  4. ElasticSearch-学习笔记04【Java客户端操作索引库】【day02】
  5. ElasticSearch-学习笔记05【SpringDataElasticSearch】

上周主要学习了这些内容并实际动手练习了其中的部分内容::

  1. es基本概念、es的安装、es中head插件的安装及使用(完成图形化界面的效果、完成索引数据的查看);
  2. 使用postman与es进行交互,练习了GET、PUT、POST、Delete等索引方法的使用;
  3. ik分词器的安装及使用;
  4. es集群的概念、简单搭建了集群,设置了mappings并进行了简单的数据插入测试;
  5. 学习了使用Java客户端操作es索引库
    1. 能够使用java客户端完成创建、删除索引的操作

    2. 能够使用java客户端完成文档的增删改的操作

    3. 能够使用java客户端完成文档的查询操作

    4. 能够完成文档的分页操作

    5. 能够完成文档的高亮查询操作

    6. 能够搭建Spring Data ElasticSearch的环境

    7. 能够完成Spring Data ElasticSearch的基本增删改查操作

    8. 能够掌握基本条件查询的方法命名规则

  6. 使用springdata与es进行交互,学习了springdata创建索引与增删索引文档的内容。
    1. 导入Spring Data ElasticSearch坐标;
    2. 创建applicationContext.xml配置文件,引入elasticsearch命名空间;
    3. 编写实体Article;
    4. 编写Dao;
    5. 编写Service;
    6. 配置applicationContext.xml;
    7. 配置实体(基于spring data elasticsearch注解配置索引、映射和实体的关系);
    8. 创建测试类SpringDataESTest。

索引库查询_queryString查询

02、Springboot+ElasticSearch构建博客检索系统

视频地址:

  1. Springboot + ElasticSearch 构建博客检索系统-慕课网

博客笔记:

  1. Springboot+ElasticSearch构建博客检索系统-学习笔记01
  2. Springboot+ElasticSearch构建博客检索系统-学习笔记02

01、将MySQL数据同步到ES中

开发技术栈:

 

 

input {jdbc {# 指定jdbc驱动包位置(不同版本处理不同,此处可直接将mysql驱动包放置logstash-core/lib/jars下,无需配置jdbc_driver_library)# "C:\\logstash-6.3.2\\mysql-connector-java-5.1.31.jar" /xxx/logstash-7.5.0/mysql-connector-java-5.1.31.jarjdbc_driver_library => "F:\\logstash\\logstash-6.3.2\\mysql-connector-java-5.1.31.jar"# 要使用的驱动包类,有过java开发经验的应该很熟悉这个了,不同的数据库调用的类不一样。jdbc_driver_class => "com.mysql.jdbc.Driver"# mysql数据库的连接信息jdbc_connection_string => "jdbc:mysql://127.0.0.1:3306/blog"# mysql用户jdbc_user => "root"# mysql密码jdbc_password => "root"# 定时任务,多久执行一次查询,默认一分钟,如果想要没有延迟,可以使用 schedule => "* * * * * *"# 定时任务,默认一分钟,"* * * * *"代表设置为无延迟schedule => "* * * * *"# *清空存储在logstash的上一次的sql_last_value记录*clean_run => true# 要执行的语句statement => "select * FROM t_blog WHERE update_time > :sql_last_value AND update_time < NOW() ORDER BY update_time desc"}
}output {elasticsearch {# es host : porthosts => ["127.0.0.1:9200"]# 索引index => "blog"# _id (取到mysql数据库记录的id)document_id => "%{id}"}
}

logstash -f ../config/mysql.conf

  1. -f:指定自己设置的配置文件
  2. config/mysql.conf:配置文件存储位置


使用kibana开发工具查看mysql数据是否成功同步到es中:

GET /blog/_stats

02、SpringBoot集成ES

SpringBoot框架内置Tomcat,使用idea时不需要再配置tomcat了。

 

RestStatusException{status=500} org.springframework.data.elasticsearch.RestStatusException: Elasticsearch exception [type=json_parse_exception, reason=Current token (VALUE_NUMBER_INT) not of boolean type
 at [Source: org.elasticsearch.transport.netty4.ByteBufStreamInput@4fcc28b8; line: 1, column: 137]]; nested exception is ElasticsearchStatusException[Elasticsearch exception [type=json_parse_exception, reason=Current token (VALUE_NUMBER_INT) not of boolean type
 at [Source: org.elasticsearch.transport.netty4.ByteBufStreamInput@4fcc28b8; line: 1, column: 137]]]


错误原因:当前最新版springboot 2.7.6相匹配的spring-boot-starter-data-elasticsearch支持的是elasticsearch 7.x.x版本,然而本门课程使用的是elasticsearch 6.3.2,解决方法:①升级elasticsearch到7.x.x版本;②使用过去的springboot版本,我尝试了2.2.0.RELEASE版本的springboot,这个错误就不再出现了,推荐此方法因为比较容易修改只需更新pom.xml。

03、本周学习计划

Hadoop

index和type同名,名字:type+版本号。
http请求,要求不高;tcp。

大数据周会-本周学习内容总结0102相关推荐

  1. 大数据周会-本周学习内容总结011

    开会时间:2023.04.23 15:00 线下会议 目录 01[spark] 02[es同步mysql] 03[下周任务] 01[spark] 尚硅谷大数据技术Spark教程-笔记01[Spark( ...

  2. 大数据周会-本周学习内容总结08

    目录 01[Hadoop] 1.1[MapReduce] 1.2[Yarn] 1.3[让用户自定义脚本在任意地方都可执行-配置方法] 02[下月学习内容] 老师指导 01[Hadoop] 尚硅谷大数据 ...

  3. 大数据周会-本周学习内容总结09

    开会时间:2023.04.09 20:00 腾讯会议 目录 01[scala] 1.1[已学内容] 1.2[待学内容] 02[Saprk] 会议记录 01[scala] 1.1[已学内容] 尚硅谷大数 ...

  4. 大数据周会-本周学习内容总结014

    开会时间:2023.05.21 15:00 线下会议 目录 01[fhzn项目] 02[Apache NiFi] 03[数据采集-调研] 3.1[数据采集,流程图.架构图.使用场景] 3.2[常见的数 ...

  5. 大数据周会-本周学习内容总结07

    目录 01[hadoop] 1.1[编写集群分发脚本xsync] 1.2[集群部署规划] 1.3[Hadoop集群启停脚本] 02[HDFS] 2.1[HDFS的API操作] 03[MapReduce ...

  6. 大数据周会-本周学习内容总结04

    目录 1.mysql数据同步到es 1.1.通过logstash同步数据 1.2.canal数据同步 1.3.通过logstash将本地文件导入es 2.git 1.mysql数据同步到es 1.1. ...

  7. 大数据周会-本周学习内容总结015

    开会时间:2023.05.28 15:30 线下会议 目录 01[fhzny项目] 02[Spark] 03[调研-数仓构建] 3.1[数仓构建,流程图.架构图.使用场景] 场景选择 组件设计 构建流 ...

  8. 大数据周会-本周学习内容总结05

    目录 00[陈师兄字节大厂经验分享] 01[MySQL数据同步ES] 1.1[Linux MySQL数据库数据同步Windows ES] 1.1.1[自动创建分片数为0的索引] 1.1.2[数据导入时 ...

  9. 大数据周会-本周学习内容总结010

    开会时间:2023.04.16 19:00 线下会议 目录 01[scala] 02[zookeeper] 03[spark] 04[专利] 会议记录 01[scala] 尚硅谷大数据技术Scala教 ...

最新文章

  1. 以太坊经典逆势上涨,行情能否继续?
  2. aix解压tgz_AIX 上压缩与解压缩 各种文件格式原理说明
  3. AI:基于计算机视觉和语音识别案例项目打包过程记录20181226-19
  4. POJ 1182 食物链,并查集的拓展
  5. python3字符串处理,高效切片
  6. echarts我常用的参数总结
  7. Python基础学习六 操作Redis
  8. 苹果cms v8模板 高仿爱奇艺带PC+手机模板
  9. kaggle—HousePrice房价预测项目实战
  10. 实战必备!文本分类中的一些经验和 tricks
  11. 海湾标准汉字码表查询_标准汉字查询软件下载-国家标准信息交换汉字编码查询系统2017官方最新版-东坡下载...
  12. 计算机应用技术头像,意大利科学家应用计算机技术进行头像复原
  13. 高性能服务器架构拓扑图,某数据中心架构拓扑图.ppt
  14. [笔记分享] [RPM] RPM T32 dump方法
  15. 选择一个可靠知名的域名管理服务提供商
  16. 浅谈 web 端测试点
  17. 主流机器学习框架介绍
  18. 员工满意度调查如何分析改进?
  19. 汽车倒车防碰撞报警系统的设计
  20. 爱数oracle备份软件,oracle 11g更新补丁后,第三方软件爱数RMAN备份报错ALLOCATE CHANNEL...

热门文章

  1. 双目运算符和三目运算符的使用浅谈
  2. 软件开发和硬件开发编程的比较
  3. 前端HTML+CSS+JS
  4. 我在大厂写React学到了什么?性能优化篇
  5. Dalvik虚拟机、Java虚拟机与ART虚拟机
  6. Excel粘贴长文本数字 精度丢失
  7. IT经理世界封面报道:淘宝潜规则
  8. 想自己上线微信小程序一定要会代码?
  9. Linux Ubuntu22.04 安装synaptic包图形化管理工具和cairo-dock(最美观的Linux dock)
  10. MATLAB如何读取文件中的数据(全网最简便)