《数学之美》读书笔记和知识点总结(一)
早在前几个月我在台湾的时候,就听说《数学之美》是一本非常不错的书,也正好是我喜欢的类型,一直想买。回到北京之后的第一件事就是把我这半年积攒的书单全部兑现,其中包括《数学之美》和《浪潮之巅》。看了之后大叫过瘾,让我好好享受了一回数学之美。
文字和数字的起源
很久以前人类以不同的叫声表示不同的信息,达到彼此交流的目的,当所要表达的信息太多时,叫声已经不够用了,于是文字产生了。
文字:知道“罗塞塔”石碑的典故。
信息冗余的重要性:当石碑经历风吹日晒,一部分文字被腐蚀掉时,还有另一部分重复的文字作为备份,可以还原石碑的信息。类似的还有人体的DNA,在人体当中,有99%的DNA是无效的,正是这99%保证了人类的正常繁衍,当遇人类遇到辐射时,DNA发生变异的概率是1%.
数字:进制的产生
为了表达大数,不同的文明产生了不同的数字表示方法,最终只有使用10进制的文明生存了下来。
10进制:古中国、古印度、阿拉伯
12进制:印度、斯里兰卡
20进制:玛雅,玛雅文明失败的原因之一就是进制太复杂,不利于科学进步,咱们现在要背九九乘法表,他们背的是361路围棋棋盘。
单位进制:罗马(5、10、50、100、500、1000)
数字的表示方法(编解码原理)
中国:编解码的密钥是乘除 二百万 = 2 x 100 x 10000
罗马:编解码的密钥是加减 IV = 5-1 = 4 ,要用罗马文字表达10亿的话,一黑板是写不下的。
抄圣经的校验方式:将每个字母映射成一个数字。把每一页文字对应的数字按行列加起来,写在每行每列的尾部。在抄写时,把自己的数字和原文的数字进行对照,可以以最快的速度检查是否有抄写错误,而且还能定位行列。这种简单有效的方法已经开始展现出数学之美了
自然语言处理的两条路
1、语意理解(失败):让计算机像人脑一样分析语句的意思,建立语法分析树。
失败原因有两点:
a.当遇到长难句时,计算量大幅增加,计算机的解码是上下文无关的,而自然语言是上下文相关的。
b.要理解语意必须建立大量的语法规则,然而即使规则再多,也不能覆盖全部的自然语言,总会有新的流行语言产生,它们处于语法规则之外。
2、数学与统计(成功):通过隐含马尔可夫模型来估计句子出现的可能性。
马尔可夫假设:在一个句子中,每个词x出现的概率只与它前面的一个词x-1有关,而与更前面的0~x-2个词无关。这是一个偷懒却有效的假设,这个著名的假设使得语言处理的计算速度大幅提升且不失准确。
马尔可夫链是马尔可夫模型的基础。它是一个有向图,各个状态之间有转移概率。同时,马尔可夫链也对概率论的研究产生了巨大贡献。
马尔可夫链的训练:鲍姆-韦尔奇算法
统计学陷阱
当统计样本不足时(分母太小),统计结果的说服力将降低,此时可以用古德-图灵方法对统计结果进行打折平滑处理
N阶马尔可夫假设:每个词和它前面的N-1个词有关,N元模型的大小是N的指数关系。Google翻译使用的是4阶模型
了解贾里尼克对现代语言处理的贡献
信息量与熵
基础:香农3定理
信息熵:衡量信息的多少和不确定性的大小,可以衡量统计模型的好坏
条件熵:已知一个变量时,另一个变量的信息熵
相对熵:用来衡量两个函数的相似性
信息熵是网页搜索的基础,它可以衡量关键词和网页之间的相关性。
搜索引擎
搜索引擎的基础是boolean逻辑运算,“与或非”这三种最快的运算方式使得搜索引擎的速度变的如此之快。一个指令周期如果进行32位的bool运算,计算速度可以达到10亿次/秒
香农提出了将所有数学运算(+ - * / ^ 开方)转换成bool运算的方法
构建网络爬虫的要点
1、利用哈希表记载哪个网站被下载过
2、广度优先 vs 深度优先?广度优先是理所应当的,爬虫应该先下载各大网站的首页再去下载它的子页,但是广度优先需要较长的握手时间(下载服务器与网站建立通讯的时间),所以广度优先和深度优先之间要做一定的权衡
3、URL的提取:面对不规则的网站,无法直接从HTML中提取URL
Google的网页排名算法:pagerank
以前我在数学建模的比赛中用过这个算法对论文进行排名,所以比较熟悉了
pagerank算法的核心是迭代计算每个网页的权重,然后通过权重的大小对网页排名。
迭代初始时每个网页的权重是一样的,然后通过计算更新每个网页的权重,规则如下:
1、当一个网页被越多的网页引用时,它的权重越大
2、当一个网页的权重越大时,它引用的网页的权重也随之变大
3、当一个网页引用的网页越多时,被它引用的网页获得的权重就越小
如此反复迭代,算法最终会收敛到一个固定的排名。
转载于:https://www.cnblogs.com/easymind223/archive/2012/08/27/2658873.html
《数学之美》读书笔记和知识点总结(一)相关推荐
- 度量相似性数学建模_数学之美读书笔记
2020年6月读,先通读一遍,随后为写读书笔记又重新读了一遍,收获颇丰,虽然没有很多数学或者编程方面的知识,但正如作者所说,这本书讲述的是道,而非术. 读这本书让我领略到了科学的趣味,并不是枯燥的敲代 ...
- 数据分析?他们早就开始用了——数学之美读书笔记
数据分析?他们早就开始用了? 标题取得很好听,其实就是<数学之美>这本书的读书笔记.这是每一个想学编程了解计算机的人都不应该错过的好书,必须推荐 光 看这个名字,你可能以为它就是一本讲数学 ...
- 数学之美-读书笔记6-10章
文章目录 数学之美 第六章 信息的度量和作用 1信息熵 2信息的作用 3互信息 4延伸阅读 第7章 贾里尼克和现代语言处理 1早年生活 2 从水门事件到莫妮卡·莱文斯基 3一位老人的奇迹 第八章 简单 ...
- 数学之美-读书笔记11-15章
文章目录 数学之美 第十一章 如何确定网页和查询的相关性 1搜索关键词权重的科学度量-TF-IDF 第十二章 有限状态机和动态规划-地图与本地搜索的核心技术 1地址分析和有限状态机 2全球导航和动态规 ...
- 数学之美读书笔记--摘抄
"系列一: 统计语言模型" "利用统计语言模型进行语言处理" "假定任意一个词wi的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设)&quo ...
- 数学之美读书笔记第一章
通信的原理和信息传播的模型 原理:信息被编码,再被解码的过程. 信息传播的模型: 传播人 => 信息 -> 编码信息 ->信道(声音介质,双绞线介质等) -> 解码信息 =&g ...
- java 对数取反_数学之美读书笔记-拼音输入法的数学原理
从理论上分析,输入汉字到底能有多快?这里需要用到信息论中的香农第一定理.假定在国标GB2312里面,一共有6700多个常用的汉字.如果不考虑汉字频率的分布,用键盘上的26个字母对汉字进行编码,两个字母 ...
- 数学之美》读书笔记和知识点总结(一)
<数学之美>读书笔记和知识点总结(一) 早在前几个月我在台湾的时候,就听说<数学之美>是一本非常不错的书,也正好是我喜欢的类型,一直想买.回到北京之后的第一件事就是把我这半年积 ...
- 设计模式之美读书笔记
目录 设计模式之美 读书笔记5- 哪些代码看似面向对象,实际是面向过程编程? 读书笔记4- 封装.抽象.继承.多态分别解决了什么编程问题? 读书笔记3- 我们在讨论面向对象的时候,主要说的是什么? 读 ...
- C++ Primer 读书笔记及知识点延伸 chapter2
C++ Primer 读书笔记及知识点延伸 chapter2 wchar_t宽字符,char16_t char32_t Unicode字符 ,long long C++11新增加 符号类型前面加上u ...
最新文章
- ovirt官方安装文档 第八章
- BJFU fudq的等式
- PHP面试题:PHP.ini路径?
- Flutter 气泡背景效果 仿苹果桌面运动的气泡
- cstring::replace不区分大小写_Excel VBA之函数篇-3.11订单号千奇百怪,如何按照结构区分来源...
- C语言程序设计基础实验教程,C语言程序设计基础实验教程
- ATL COM类之激活
- c/c++初学者用什么软件比较好
- java实训小结_java实训心得体会(精选4篇)
- JTF的Unable to invoke request异常或Unable to find a MessageBodyReader of content-type application..异常详解
- 《IS-IS网络设计解决方案》一第6章 最短路径优先算法6.1 SPF算法概述
- 读周爱民《javascript语言精髓与编程实践》有感
- 再现隐私之争_反谷歌FLoC联盟: selenium谷歌浏览器报错: Error with Permissions-Policy header
- ucore操作系统lab2实验报告
- 世界上前11名最贵跑车
- 参加门票6800的QCon大会,是怎样的体验?
- java一球从100米高度自由落下,每次落地后反跳回原高度的一半;再落下 求它在 第10次落地时,共经过多少米?第10次反弹多高?
- Java将Excel文件、Word文件转为PDF
- Q for Mortals2笔记 -- 原子数据类型
- VXLAN概述:思科Nexus 9000系列交换机
热门文章
- mongo php 自增,PHP7下MongoDB自增或自减一个字段的值
- CSS Position(定位)
- java response设置403,java.io.IOException:服务器返回URL的HTTP响应代码:403
- gstat | 空间插值(四)——克里金插值之协同克里金和交叉验证
- python协程实现一万并发_python中的协程并发
- java 6 损坏,Java 异常处理六
- 前端开发核心JavaScript要怎么学?给转行或是自学的朋友提些学习建议
- win8锁定计算机,Win8怎么关闭锁屏功能
- unity2d随机生成物体_平面测量路径生成的4种方式
- php判断目录是否有写的权限,PHP版目录权限检测