1. Web 挖掘
    在分布式信息环境中,文档或对象通常被链接在一起,以便于互相访问,这种提供信息的环境包括WWW和在线服务,用户可以通过某些工具从一个对象转到另一个对象
  2. Web挖掘任务划分为4个任务:
    A: 寻找资源,这是一个从Web的多媒体资源中在线或离线检索数据的过程
    B: 信息的选择和预处理,在之前的子任务中检索出不同种类的原始数据后,这个子任务负责转换这些是数据
    C: 总结,总结是在一个和多个Web站点上自动发现一般模式的过程,使用了不同的通用机器学习技术
    D: 分析,这个任务验证和/或解释以挖掘出的模式
    有三个因素会影响到用户通过数据挖掘过程来识别和评估Web站点的方式:
    A: Web页面的内容 B: Web页面的设计 C: 整个站点的设计,包括它的结构
  3. Web内容、结构与使用数据挖掘
    对Web的哪部分进行挖掘是Web挖掘分类的方法之一,Web挖掘包含三个主要方面:Web内容挖掘、Web结构挖掘、Web使用挖掘
    其分类按照在挖掘过程中使用的数据类型,Web内容挖掘使用Web页面的内容作为挖掘过程中需要使用的数据来源,Web页面内容可能包含文本、图像、视频以及其他任何出现在Web页面上的内容
    Web内容挖掘通常在搜索过程中使用,许多不同的解决方案将Web页面文本或图像作为输入,帮助用户发现他们感兴趣的内容,同时,Web内容挖掘也可以直接作用在搜索过程中
  4. Web结构挖掘考虑Web页面之间的关系,大多数Web页面包含一个或多个超链接,Web结构挖掘认为超链接通过页面之间的链接提供了支持佐证
    Web结构挖掘主要用于信息检索过程,Web结构挖掘也用于辅助Web内容挖掘过程,通常,分类任务将考虑Web页面的内容和结构,Web挖掘任务中利用结构挖掘中的一个最普遍的特点是锚文本,锚文本涉及采用HTML超链接的方式,将文本显示给用户,通常,锚文本提供了汇总的未在原始页面中发现的关键字
  5. HITS和LOGSOM算法
    到目前为止,基于索引的Web搜索引擎是用户搜索信息的主要工具
    HITS算法的步骤:
    A: 取样组分,构建在相关信息中可能经常出现的焦点Web页面集合
    B: 权重传播组分,通过一个迭代过程来估计hub页面和权威页面,并且获得最相关、最权威的Web页面子集
    在取样阶段,把Web视为一个页面的有向图,HITS算法首先构造子图,在子图中可以搜索hub页面和权威页面,目标是所构建的子图蕴含高相关性、权威性的页面,在构造这样的自图示,先使用查询方法从基于索引的搜索引擎中收集页面的根集
    在权威传播阶段,要为基本集合V中的所有页面制定一个具体数字,从基本集合V中提取hub页面和权威页面
    6.自组织图谱(SOM)
    SOM技术是组织Web页面的最合适的技术,因为他不仅可以将数据点组织到聚类中,而且可以用图表表示聚类之间的关系,该系统首先创建一个Web日志文件,指定表示日期、时间、和所请求Web页面的地址,以及用户计算机的IP地址,数据组合在有意义的事务或会话中,事务通过用户所请求的Web页面集来进行定义
    7.挖掘路径遍历模式
    在改进公司的Web站点之前,需要顾及它的当前用量,理想情况下,可以根据站点上自动记录的数据来估计
    LOGSOM方法关注Web页面的相似性,而其他技术强调用户浏览Web的路径的相似性,捕捉Web环境中的用户访问模式称为挖掘路径遍历模式
  6. 挖掘遍历模式的两个步骤
    A: 第一步开发出一种算法,将日志数据的原始序列转换成一个遍历序列集,每个遍历序列都代表从用户访问起点开始的一个最大的前向引用,注意,此转换步骤要滤掉后向应用的影响,这种后向引用主要是为了便于遍历,归约后的新用户定义的前向路径可以让我们集中精力挖掘有意义的用户访问序列
    B: 第二部由确定频繁遍历模式的一个独立算法构成,叫做大引用序列,大引用序列实在日志数据库中出现次数足够的一个序列,在最后阶段,算法根据大引用序列形成最大引用,最大序列是不属于其他任何最大引用序列的大引用序列
    9.Page Rank算法
    PageRank算法隐含的主要假设是从网页面a到网页面b的每个链接是页面a对页面b的投票,并非所有的投票都是等价的,投票的权重需要按照PageRank对原始站点的评分确定
    PageRank基于随机浏览模型,如果某个浏览随机的选择某个开始Web页面,并且在每个时间步中浏览随机的选择当前Web页面的某个链接,则PageRank算法表现为该随机浏览针对任何给定页面的概率,一些Web页面不包含任何超链接,当存在任何没有 超链接的Web页面时,该模型假定随机浏览选择了一个随机Web页面,另外,存在一些情况将导致随机浏览停止跟踪链接并重新开始
  7. 文本挖掘
    两种重要技术使在线文本挖掘变为可能,一种是Internet搜索能力,另一种是文本分析方法
    文本信息的自动分析可用于几个不同的目的:
    A: 对大型文档集的内容做一个纵览,并以最有效的方式组织他们
    B: 识别文档之间或文档组之间的隐藏结构
    C: 提高搜索过程的效率,以找到类似的或相关的信息
    D: 检测存档文件的副本信息或文档
    文本挖掘过程主要分类两个阶段:A: 文本提炼,将自由形式的文本文档转换成所选的中介形式
    B: 知识萃取,从中介形式中演绎出模式或知识
  8. 潜在语义分析(LSA)
    潜在语义分析的最初开发已读是考虑单词在一系列使用环境中的语义意思,以提高信息检索技术的精度和效用,LSA使用单词使用率的统计模型来分割自由文本的方法,与特征向量分解及因子分析相似

数据挖掘之Web挖掘和文本挖掘相关推荐

  1. 《商务智能 管理视角》——(六)文本挖掘和Web挖掘

    文本挖掘 文本挖掘(也叫文本数据挖掘或文本型数据库中的知识发现)是指半自动化地从大量的非结构化数据资源中提取模式(即有用的信息或知识)的过程.文本挖掘和数据挖掘一样,他们具有相同的目的并利用相同的处理 ...

  2. 10 种最流行的 Web 挖掘工具!

    作者 | prowebscraper's blog 译者 | 高级农民工 责编 | 胡巍巍 本文经授权转载自高级农民工 互联网有数不清的网页,且不断在以指数级速度产生新内容.到 2022 年,整个互联 ...

  3. Web 挖掘技术总结 (参考太多,都没列出来)

    Web挖掘技术 一.数据挖掘 数据挖掘是运用计算机及信息技术,从大量的.不完全的数据集中获取隐含在其中的有用知识的高级过程.Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用. ...

  4. 10 种最流行的 Web 挖掘工具 | 程序员硬核评测

      戳蓝字"CSDN云计算"关注我们哦! 程序员硬核评测:客观.高效.不说软话.无论是技术质量.性能水平,还是工具筛选,一测便知! 作者 | prowebscraper's blo ...

  5. 10 种流行的 Web 挖掘工具

    互联网有数不清的网页,且不断在以指数级速度产生新内容.到 2022 年,整个互联网创建和复制的数据将达到 44 ZB,也就是 44 万亿 GB.这么大体量内容的背后也带来了丰富信息源,唯一的问题是怎么 ...

  6. Web 挖掘技术总结

    Web挖掘技术 一.数据挖掘 数据挖掘是运用计算机及信息技术,从大量的.不完全的数据集中获取隐含在其中的有用知识的高级过程.Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用. ...

  7. web of science怎么登陆_10 种最流行的 Web 挖掘工具 | 程序员硬核评测

      戳蓝字"CSDN云计算"关注我们哦! 程序员硬核评测:客观.高效.不说软话.无论是技术质量.性能水平,还是工具筛选,一测便知! 作者 | prowebscraper's blo ...

  8. 南华大学计算机学院龚向坚,基于混合模拟退火-遗传算法和HMM的Web挖掘

    隐马尔可夫模型训练算法是一种局部搜索算法,对初值敏感.传统方法采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于Web挖掘效果不佳.遗传算法具有较强的全局搜索能力,但容易早熟.收敛慢,模拟退火算法 ...

  9. 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )

    文章目录 一. Apriori 算法过程 二. Apriori 算法示例 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction ...

最新文章

  1. Datawhale来厦大啦!
  2. 提高ActiveMQ工作性能
  3. 【转】iOS开发-Protocol协议及委托代理(Delegate)传值
  4. 腾讯面试官用「B+树」虐哭我了
  5. ORA-01036: 非法的变量名/编号
  6. 云服务器端口对外开放详解
  7. jpa postgresql 使用uuid作为主键
  8. C++类实例以及子类在内存中的分配
  9. [react] 展示组件和容器组件有什么区别?
  10. Visual C# 2008+SQL Server 2005 数据库与网络开发--13.1.1 菜单创建
  11. Mac Nginx 配置 Tomcat 配置 jdk环境变量 Nginx部署服务遇到的坑(1)
  12. 计算机网络7种类型,OSPF中7种类型LSA
  13. 面向对象——意图与逻辑
  14. EXTJS4自学手册——EXT基本方法、属性(mixins多继承、statics、require)
  15. vue使用阿里巴巴矢量图标库
  16. FTP服务器搭建详细步骤
  17. GNSS螺旋天线高精度定位
  18. 面向对象程序设计六大原则
  19. 论文笔记:Neural Collaborative Filtering(NCF)
  20. maven已支持支付宝开放平台SDK

热门文章

  1. 国产当自强,3秒开机,银河麒麟系统有多强?
  2. Mac OSX下破解软件的一般方法及过程
  3. 【转载 来自sdnlab】 开放网络没那么简单
  4. CTF综合靶场渗透系列-Billu_b0x
  5. GridView 横向滚动
  6. hdu5222Exploration
  7. python 截取字符串一部分_python 截取部分字符串
  8. 与比亚迪联手骚操作,滴滴造车能上演一出什么好戏?
  9. java按钮触发事件程序,小编给你传授java怎么实现按钮触发事件功能
  10. 用html制作一朵花,SVG画图功能:svg实现画出一朵花(附代码)