区块链rfc
1. 谁能帮我解解这个加密的MD5
MD5的全称是Message-Digest Algorithm 5(信息-摘要算法),在90年代初由MIT Laboratory for Computer Science和RSA Data Security Inc的Ronald L. Rivest开发出来,经MD2、MD3和MD4发展而来。它的作用是让大容量信息在用数字签名软件签署私人密匙前被"压缩"成一种保密的格式(就是把一个任意长度的字节串变换成一定长的大整数)。不管是MD2、MD4还是MD5,它们都需要获得一个随机长度的信息并产生一个128位的信息摘要。虽然这些算法的结构或多或少有些相似,但MD2的设计与MD4和MD5完全不同,那是因为MD2是为8位机器做过设计优化的,而MD4和MD5却是面向32位的电脑。这三个算法的描述和C语言源代码在Internet RFCs 1321中有详细的描述(http://www.ietf.org/rfc/rfc1321.txt),这是一份最权威的文档,由Ronald L. Rivest在1992年8月向IEFT提交。
Rivest在1989年开发出MD2算法。在这个算法中,首先对信息进行数据补位,使信息的字节长度是16的倍数。然后,以一个16位的检验和追加到信息末尾。并且根据这个新产生的信息计算出散列值。后来,Rogier和Chauvaud发现如果忽略了检验和将产生MD2冲突。MD2算法的加密后结果是唯一的--既没有重复。
为了加强算法的安全性,Rivest在1990年又开发出MD4算法。MD4算法同样需要填补信息以确保信息的字节长度加上448后能被512整除(信息字节长度mod 512 = 448)。然后,一个以64位二进制表示的信息的最初长度被添加进来。信息被处理成512位Damg?rd/Merkle迭代结构的区块,而且每个区块要通过三个不同步骤的处理。Den Boer和Bosselaers以及其他人很快的发现了攻击MD4版本中第一步和第三步的漏洞。Dobbertin向大家演示了如何利用一部普通的个人电脑在几分钟内找到MD4完整版本中的冲突(这个冲突实际上是一种漏洞,它将导致对不同的内容进行加密却可能得到相同的加密后结果)。毫无疑问,MD4就此被淘汰掉了。
尽管MD4算法在安全上有个这么大的漏洞,但它对在其后才被开发出来的好几种信息安全加密算法的出现却有着不可忽视的引导作用。除了MD5以外,其中比较有名的还有SHA-1、RIPE-MD以及HAVAL等。
一年以后,即1991年,Rivest开发出技术上更为趋近成熟的MD5算法。它在MD4的基础上增加了"安全-带子"(Safety-Belts)的概念。虽然MD5比MD4稍微慢一些,但却更为安全。这个算法很明显的由四个和MD4设计有少许不同的步骤组成。在MD5算法中,信息-摘要的大小和填充的必要条件与MD4完全相同。Den Boer和Bosselaers曾发现MD5算法中的假冲突(Pseudo-Collisions),但除此之外就没有其他被发现的加密后结果了。
Van Oorschot和Wiener曾经考虑过一个在散列中暴力搜寻冲突的函数(Brute-Force Hash Function),而且他们猜测一个被设计专门用来搜索MD5冲突的机器(这台机器在1994年的制造成本大约是一百万美元)可以平均每24天就找到一个冲突。但单从1991年到2001年这10年间,竟没有出现替代MD5算法的MD6或被叫做其他什么名字的新算法这一点,我们就可以看出这个瑕疵并没有太多的影响MD5的安全性。上面所有这些都不足以成为MD5的在实际应用中的问题。并且,由于MD5算法的使用不需要支付任何版权费用的,所以在一般的情况下(非绝密应用领域。但即便是应用在绝密领域内,MD5也不失为一种非常优秀的中间技术),MD5怎么都应该算得上是非常安全的了。
算法的应用
MD5的典型应用是对一段信息(Message)产生信息摘要(Message-Digest),以防止被篡改。比如,在UNIX下有很多软件在下载的时候都有一个文件名相同,文件扩展名为.md5的文件,在这个文件中通常只有一行文本,大致结构如:
MD5 (tanajiya.tar.gz) =
这就是tanajiya.tar.gz文件的数字签名。MD5将整个文件当作一个大文本信息,通过其不可逆的字符串变换算法,产生了这个唯一的MD5信息摘要。如果在以后传播这个文件的过程中,无论文件的内容发生了任何形式的改变(包括人为修改或者下载过程中线路不稳定引起的传输错误等),只要你对这个文件重新计算MD5时就会发现信息摘要不相同,由此可以确定你得到的只是一个不正确的文件。如果再有一个第三方的认证机构,用MD5还可以防止文件作者的"抵赖",这就是所谓的数字签名应用。
MD5还广泛用于加密和解密技术上。比如在UNIX系统中用户的密码就是以MD5(或其它类似的算法)经加密后存储在文件系统中。当用户登录的时候,系统把用户输入的密码计算成MD5值,然后再去和保存在文件系统中的MD5值进行比较,进而确定输入的密码是否正确。通过这样的步骤,系统在并不知道用户密码的明码的情况下就可以确定用户登录系统的合法性。这不但可以避免用户的密码被具有系统管理员权限的用户知道,而且还在一定程度上增加了密码被破解的难度。
正是因为这个原因,现在被黑客使用最多的一种破译密码的方法就是一种被称为"跑字典"的方法。有两种方法得到字典,一种是日常搜集的用做密码的字符串表,另一种是用排列组合方法生成的,先用MD5程序计算出这些字典项的MD5值,然后再用目标的MD5值在这个字典中检索。我们假设密码的最大长度为8位字节(8 Bytes),同时密码只能是字母和数字,共26+26+10=62个字符,排列组合出的字典的项数则是P(62,1)+P(62,2)….+P(62,8),那也已经是一个很天文的数字了,存储这个字典就需要TB级的磁盘阵列,而且这种方法还有一个前提,就是能获得目标账户的密码MD5值的情况下才可以。这种加密技术被广泛的应用于UNIX系统中,这也是为什么UNIX系统比一般操作系统更为坚固一个重要原因。
算法描述
对MD5算法简要的叙述可以为:MD5以512位分组来处理输入的信息,且每一分组又被划分为16个32位子分组,经过了一系列的处理后,算法的输出由四个32位分组组成,将这四个32位分组级联后将生成一个128位散列值。
在MD5算法中,首先需要对信息进行填充,使其字节长度对512求余的结果等于448。因此,信息的字节长度(Bits Length)将被扩展至N*512+448,即N*64+56个字节(Bytes),N为一个正整数。填充的方法如下,在信息的后面填充一个1和无数个0,直到满足上面的条件时才停止用0对信息的填充。然后,在在这个结果后面附加一个以64位二进制表示的填充前信息长度。经过这两步的处理,现在的信息字节长度=N*512+448+64=(N+1)*512,即长度恰好是512的整数倍。这样做的原因是为满足后面处理中对信息长度的要求。
MD5中有四个32位被称作链接变量(Chaining Variable)的整数参数,他们分别为:A=0x01234567,B=0x89abcdef,C=0xfedcba98,D=0x76543210。
当设置好这四个链接变量后,就开始进入算法的四轮循环运算。循环的次数是信息中512位信息分组的数目。
将上面四个链接变量复制到另外四个变量中:A到a,B到b,C到c,D到d。
主循环有四轮(MD4只有三轮),每轮循环都很相似。第一轮进行16次操作。每次操作对a、b、c和d中的其中三个作一次非线性函数运算,然后将所得结果加上第四个变量,文本的一个子分组和一个常数。再将所得结果向右环移一个不定的数,并加上a、b、c或d中之一。最后用该结果取代a、b、c或d中之一。
以一下是每次操作中用到的四个非线性函数(每轮一个)。
F(X,Y,Z) =(X&Y)|((~X)&Z)
G(X,Y,Z) =(X&Z)|(Y&(~Z))
H(X,Y,Z) =X^Y^Z
I(X,Y,Z)=Y^(X|(~Z))
(&是与,|是或,~是非,^是异或)
这四个函数的说明:如果X、Y和Z的对应位是独立和均匀的,那么结果的每一位也应是独立和均匀的。
F是一个逐位运算的函数。即,如果X,那么Y,否则Z。函数H是逐位奇偶操作符。
假设Mj表示消息的第j个子分组(从0到15),<<
FF(a,b,c,d,Mj,s,ti)表示a=b+((a+(F(b,c,d)+Mj+ti)<< GG(a,b,c,d,Mj,s,ti)表示a=b+((a+(G(b,c,d)+Mj+ti)<< HH(a,b,c,d,Mj,s,ti)表示a=b+((a+(H(b,c,d)+Mj+ti)<< II(a,b,c,d,Mj,s,ti)表示a=b+((a+(I(b,c,d)+Mj+ti)<<
这四轮(64步)是:
第一轮
FF(a,b,c,d,M0,7,0xd76aa478)
FF(d,a,b,c,M1,12,0xe8c7b756)
FF(c,d,a,b,M2,17,0x242070db)
FF(b,c,d,a,M3,22,0xc1bdceee)
FF(a,b,c,d,M4,7,0xf57c0faf)
FF(d,a,b,c,M5,12,0x4787c62a)
FF(c,d,a,b,M6,17,0xa8304613)
FF(b,c,d,a,M7,22,0xfd469501)
FF(a,b,c,d,M8,7,0x698098d8)
FF(d,a,b,c,M9,12,0x8b44f7af)
FF(c,d,a,b,M10,17,0xffff5bb1)
FF(b,c,d,a,M11,22,0x895cd7be)
FF(a,b,c,d,M12,7,0x6b901122)
FF(d,a,b,c,M13,12,0xfd987193)
FF(c,d,a,b,M14,17,0xa679438e)
FF(b,c,d,a,M15,22,0x49b40821)
第二轮
GG(a,b,c,d,M1,5,0xf61e2562)
GG(d,a,b,c,M6,9,0xc040b340)
GG(c,d,a,b,M11,14,0x265e5a51)
GG(b,c,d,a,M0,20,0xe9b6c7aa)
GG(a,b,c,d,M5,5,0xd62f105d)
GG(d,a,b,c,M10,9,0x02441453)
GG(c,d,a,b,M15,14,0xd8a1e681)
GG(b,c,d,a,M4,20,0xe7d3fbc8)
GG(a,b,c,d,M9,5,0x21e1cde6)
GG(d,a,b,c,M14,9,0xc33707d6)
GG(c,d,a,b,M3,14,0xf4d50d87)
GG(b,c,d,a,M8,20,0x455a14ed)
GG(a,b,c,d,M13,5,0xa9e3e905)
GG(d,a,b,c,M2,9,0xfcefa3f8)
GG(c,d,a,b,M7,14,0x676f02d9)
GG(b,c,d,a,M12,20,0x8d2a4c8a)
第三轮
HH(a,b,c,d,M5,4,0xfffa3942)
HH(d,a,b,c,M8,11,0x8771f681)
HH(c,d,a,b,M11,16,0x6d9d6122)
HH(b,c,d,a,M14,23,0xfde5380c)
HH(a,b,c,d,M1,4,0xa4beea44)
HH(d,a,b,c,M4,11,0x4bdecfa9)
HH(c,d,a,b,M7,16,0xf6bb4b60)
HH(b,c,d,a,M10,23,0xbebfbc70)
HH(a,b,c,d,M13,4,0x289b7ec6)
HH(d,a,b,c,M0,11,0xeaa127fa)
HH(c,d,a,b,M3,16,0xd4ef3085)
HH(b,c,d,a,M6,23,0x04881d05)
HH(a,b,c,d,M9,4,0xd9d4d039)
HH(d,a,b,c,M12,11,0xe6db99e5)
HH(c,d,a,b,M15,16,0x1fa27cf8)
HH(b,c,d,a,M2,23,0xc4ac5665)
第四轮
II(a,b,c,d,M0,6,0xf4292244)
II(d,a,b,c,M7,10,0x432aff97)
II(c,d,a,b,M14,15,0xab9423a7)
II(b,c,d,a,M5,21,0xfc93a039)
II(a,b,c,d,M12,6,0x655b59c3)
II(d,a,b,c,M3,10,0x8f0ccc92)
II(c,d,a,b,M10,15,0xffeff47d)
II(b,c,d,a,M1,21,0x85845dd1)
II(a,b,c,d,M8,6,0x6fa87e4f)
II(d,a,b,c,M15,10,0xfe2ce6e0)
II(c,d,a,b,M6,15,0xa3014314)
II(b,c,d,a,M13,21,0x4e0811a1)
II(a,b,c,d,M4,6,0xf7537e82)
II(d,a,b,c,M11,10,0xbd3af235)
II(c,d,a,b,M2,15,0x2ad7d2bb)
II(b,c,d,a,M9,21,0xeb86d391)
常数ti可以如下选择:
在第i步中,ti是4294967296*abs(sin(i))的整数部分,i的单位是弧度。(4294967296等于2的32次方)
所有这些完成之后,将A、B、C、D分别加上a、b、c、d。然后用下一分组数据继续运行算法,最后的输出是A、B、C和D的级联。
当你按照我上面所说的方法实现MD5算法以后,你可以用以下几个信息对你做出来的程序作一个简单的测试,看看程序有没有错误。
MD5 ("") =
MD5 ("a") =
MD5 ("abc") =
MD5 ("message digest") =
MD5 ("abcdefghijklmnopqrstuvwxyz") =
MD5 ("") =
MD5 ("
01234567890") =
如果你用上面的信息分别对你做的MD5算法实例做测试,最后得出的结论和标准答案完全一样,那我就要在这里象你道一声祝贺了。要知道,我的程序在第一次编译成功的时候是没有得出和上面相同的结果的。
MD5的安全性
MD5相对MD4所作的改进:
1. 增加了第四轮;
2. 每一步均有唯一的加法常数;
3. 为减弱第二轮中函数G的对称性从(X&Y)|(X&Z)|(Y&Z)变为(X&Z)|(Y&(~Z));
4. 第一步加上了上一步的结果,这将引起更快的雪崩效应;
5. 改变了第二轮和第三轮中访问消息子分组的次序,使其更不相似;
6. 近似优化了每一轮中的循环左移位移量以实现更快的雪崩效应。各轮的位移量互不相同。
2. 学编程的要求有哪些
俗话说,没有金刚钻,就别揽瓷器活儿。套用到
IT
业,英语不行,就别做程序员。网上关
于程序员学英语的文章不少,
但我想谈谈我自己的看法。
首先详细讨论一下为什么程序员离
了英语不行,然后针对程序员应该怎么学英语说说我的体会。
英语是计算机的母语,是程序的母语,所以必然是程序员的母语。
程序中的变量名、函数名
起得好不好是决定代码质量和可维护性的最关键因素。
高质量的代码应该是这样的:
代码基
本上是自解释的(
self-explanatory
),不需要太多注释,不管代码的规模有多大,具有相
关知识背景的读过文档的人都可以立刻上手、
立刻参与维护和开发。
要想使代码能够自解释,
给变量和函数起个好名字很关键,
很显然,
只能用英文起名字,
一是用汉语拼音起名字可读
性很差,二是英文单词通常比汉语更
expressive
(看吧,如果用汉语来说,就得说“表达
能力更强”、“更有表现力”这么罗嗦)
,由于程序的复杂性,变量和函数往往表示一些很
抽象的概念,
起个既准确又简洁的名字并不容易,
可是很多时候,
用汉语需要很多字才能说
清楚的一件事,用英文一个单词再加点词形变化就能说清楚了。例如
APUE
上讲
sleep
函数
的实现,
其中有个变量表示“本来应该睡到某个时刻,
但是提前被信号唤醒了,
唤醒时与本
来应该睡到的时刻相差的时间”,
如果为了简洁而不求准确,
这个变量名至少也得叫“未睡
到”,而书中只用了一个单词
unslept
,非常准确、简洁地表达了这个意思。为了写程序而
学英语需要学到什么水平?我认为能起出这种变量名就够水平了。很多在
IT
外企工作的中
国人,说话写文章经常夹杂着英文单词(比我严重多了因为我不在外企),非常可以理解,
确实是为了表达得更准确简洁的需要,而不是纯为了
play
zhuangbility
。总之,要写程序
必须学好英语,
否则连变量名都起不好,
这虽然是一个非技术问题,但却是个根本问题,比
任何技术问题都重要。当然,现在很多编程语言也支持用
Unicode
字符给变量和函数起名,
但是你见过有人用汉字写程序吗?根本不实用。
有人会辩驳说一页英文翻译成中文往往只占
半页,中文不是更简洁吗?但是你算算打一页英文和打半页中文哪个敲键盘次数多。另外,
要读别人的代码也必须学好英语,如果你不知道
unslept
是由
sleep
变形而来的,就体会
不到其中的精妙,
只有大量阅读高质量的代码,
才能写出高质量的代码,
创作都是从模仿开
始的。
说说英语对于看书学习的重要性。
中文技术书和英文技术书的水平根本不在一个量级上,
这
是有很多原因的,
不能全归结于中文书的作者水平差。
最重要的是,
出中文书的低回报率决
定了作者不可能花太多心血在上面,你去
amazon
看看一本书卖多少美刀,再去
chinapub
看看一本书卖几块钱。
老外写一本书,
可以做到全书没有一个拼写错误
(当然英文的拼写检
查工具更完善也是部分原因),中文能找出一本没有错别字的书吗?
Knuth
可以悬赏让全世
界读者来找磋,
中文书作者有哪个敢这么做?不是因为老外态度有多认真治学有多严谨,
而
是因为他们赚到了,就应该拿出高质量的作品来,不然会被读者骂的。
英文技术书的翻译质量通常很差。
也不能归结于译者的水平差,
我也翻译过书,
也努力想译
好,但真的很难译好。
IT
业的新名词层出不穷,像“内核”、“网络”这种常见术语还好,
稍微专一点的术语都没有统一的译名。
我们在教学中发现,
很多学员看书时搞不清这本书的
名词
A
和那本书的名词
B
是什么区别,
来问老师,
才发现原来
A
和
B
就是一回事儿。
这是一
个单词对应多个译名的情况,
还有一个译名对应多个单词的情况,
比如
field
、
domain
、
realm
都译成“域”,
block
、
bulk
都译成“块”,
argument
、
parameter
都译成“参数”,
attribute
、
property
都译成“属性”,虽然这些词的意思本来就差不多,但是在一篇文章
里,作者可以换着用,不同的单词表示不同的概念,翻译完了一看,都成一个概念了。英文
书背后都有
index
,看到一半忘了某个名词是怎么定义的就可以翻
index
,而译文通常没有
index
,名词都已经乱七八糟了,没法做
index
。还有更发指的是,老外喜欢造词,现有的
单词上加一点变化和组合(例如有人喜欢说
automagically
),看着心领神会,想译出来就
很费劲。
老外即使在技术书中也经常用一些生动的表达方式和俏皮话,
而中文的书面语言非
常死板,
生动的表达方式只存在于口语中,
如果写在书上就很不像话,
这也是很难翻译的一
个重要原因。看中文译本,不仅质量差,而且跟不上时代,通常一本英文书出来,至少要等
一到两年才能看到中文译本。
两年啊!
等你看到这本书的中文译本时,
这个版本都快淘汰了。
然后说说英语在开发工作中的重要性。
看书学习通常只起一个引导入门的作用,
在工作中更
有用的是手册、文档。学完了
C
语言开始写程序了,谁还会去查
K&R
附录中的库函数?查
man page
才是最有效率的。然而手册比入门书更少有中文译版,因为手册是随时变的,会
随着软件版本更新,
而且需要看这些开发手册的人通常不会有英文障碍,
有英文障碍的人即
使看了翻译的手册也写不出好程序来,
所以当然没必要翻译了。
不管什么技术,
官方的手册
和技术标准才是最原始的第一手资料,
看别的书都是以讹传讹,
由于自然语言不可避免是有
歧义的,
文档中表达得不准确的地方就会被文档的读者也就是技术书的作者误解,
技术书中
再有表达不准确的地方又被译者误解。
我们小时候都玩过传话的游戏,
几个人站一排,
通过
悄悄话传一句话,传到最后变成什么了?所以,学网络协议,就得看
RFC
,学
ARM
,就得看
ARM
公司的
Architecture Reference Manual
,要学习
C
语言就得看
C99
,有歧义不要紧,
自己去揣测原作者的意思,总比道听途说的可靠。
我们的学员出去面试经常被问到的一个问题就是:
在开发工作中遇到问题,
书和文档上都没
有答案,网上搜一下也没有答案,怎么办?要我说,能看懂源代码的就去源代码中找答案,
这称为
hacking
,不管是内核、
libc
还是各种
framework
,你调用的东西有问题都能从它的
代码中找到原因。如果没有能力
hacking
,或者时间紧不想去
hacking
,最好的办法就是去
官方邮件列表和
IRC
问。
如果英文不行就没办法了,
只能去一些中文论坛:
“各位大虾帮忙,
小弟有一个问题求救!
跪求!
!
在线等!
!
!
”在线等了好几天也无人问津,
或者答非所问。
岂不知逛这些论坛的没有大虾,都是菜鸟,大虾们都在
IRC
上聊得正欢呢。我在做
Qt
开发
时曾经有一个问题,
当时在教育网,
上国外网不方便,
去各大中文论坛问了好几天也没人给
出满意的回答,后来花钱连了国外网,去
trolltech
官方新闻组提问,只等了几分钟就得
到了满意的解决办法。这次经历给我留下了深刻印象,从此以后再也没有去中文论坛。
那么,
如果现在英文水平很差,
又想做程序员,
应该怎么学英语呢?我下面说的方法有两个
前提,
一是你的英文至少达到高中毕业水平,
也就是语法基本都学完了,
即使用得不熟练也
知道有那么回事儿,二是你希望尽快在工作中用上英语,写程序够用就行,而不是有考
T
考
G
这样的更高要求。
学习英语有听说读写四个方面的要求,
做程序员至少需要读和写非常流畅,
如果在外企工作
还需要听和说的能力。技术英语和考
T
考
G
是不一样的,一是听和说不像读和写那么重要,
不必担心自己是“聋哑英语”,
没关系,
丝毫不影响你成为编程高手,
二是要求的词汇量要
小得多。
考
T
考
G
都要拿一本单词书背,
很少有人会觉得背单词很有意思,
至少我是觉得很
痛苦,
幸运的是看技术书不需要多少词汇量。
技术书的描述对象都是局限于一个很窄的领域
的,
就那么几个单词翻来覆去地用,
而且技术书是为了让人看懂的
(不像诗是为了让人看不
懂的)
,比较复杂的词在书中都有定义或解释。有些作者喜欢卖弄词汇量,
用一些很生僻的
单词,也有些作者卖弄一些典故,由于文化背景不同很难理解,不过这些通常都可以无视,
不会影响阅读,
还是因为技术书是为了让人看懂的。
对于学习者来说,
阅读能力是最重要的,
等你完成了学习,成为一个合格的开发者时,
需要写代码注释,需要写文档,需要通过邮件
交流,写作的能力才开始重要了。所以应该首先从阅读开始练习英语。
现在就拿起一本英文原版书开始看吧。
和学游泳一样,
阅读的能力只能通过阅读本身来练习。
我的经验是,
不必先系统学习了单词和语法再看书,
可以在看书时用到什么就补什么。
我建
议初学者看电子版,
因为现在的词典软件都可以鼠标取词,
边看边查很方便,
很多勤快人喜
欢把查过的单词都抄下来,我觉得没有必要,
反正查字典很方便,
下次再看到了就再查,多
查几次总会记住的,
抄下来就打断了看书的思路,
而且不见得抄下来就能记住。
也许是因为
我这人比较懒,
我用的都是懒办法。
很多人不喜欢看电子书,
理由是盯着屏幕看书太累,那
么盯着屏幕写程序累不累?这种人显然不适合做程序员。
语法不熟练怎么办?大多数情况下
单词的意思都明白了就不影响阅读。
技术书有时候喜欢用长句,
其中可能包含各种从句,
如
果实在读不懂就去查语法书,
同样也不需要把这种从句彻底弄明白,
只要这一句能看过去就
行了,以后多查几遍书,自然就掌握了。另外,技术书是说明文,通常不应该有过去时,看
到过去时就需要注意了,
很可能是虚拟语气,
如果不注意这一点,
看到的意思可能和真实的
意思正好相反。
应该从哪本书开始看起呢?从你当前最需要学的技术书看起。
看书是相当花时间的,
如果能
一边学英语一边学技术,
这时间利用得就很有效率。
比如,
如果你的
C
语言已经学得相当好
了,不要专门为了学英语去重看一遍原版的
K&R
。市面上有一些专门的计算机英语教材,我
的建议是不要看,浪费时间,
nonsense
。
初学时最好选一本有中文译本的书,有看不懂的地
方可以翻中文版来对照,
但是不要相信中文的翻译,
原因在前面讨论过了。
如果你是初学编
程,没有任何基础,我可以推荐一本英文很浅显技术也很浅显的书:
How To Think Like a
Computer Scientist
,有
Python
、
Java
和
C++
版本,可自由下载。
要逐渐养成良好的阅读习惯。
一是不要每个生单词都去查,
有些单词很生僻,
查了也记不住,
记住了也不会再见到它了,
但是前面讲过,
都是作者在卖弄词汇量,
无视它丝毫不影响阅读,
因此要学会猜测单词的意思,能不查就不查,继续贯彻“懒”的原则。二是看书不要动口,
不念出声也不行,
就是不要动口,
要努力在大脑中建立从词形到语义的直接映射,
如果只能
从词形到读音再到语义就太慢了,
严重影响阅读速度。
三是努力做到每句话都从头到尾只看
一遍,
不许回头反复看,
这一点比较难,
必须注意力高度集中,经常在记忆中暂存前面半句
的内容和句式才能做到,
但是一旦神功练成就会成倍地提高阅读速度。
最后一层境界,
学会
skim
,
就是略读,
很多优秀的作者在组织材料时会给读者一些建议,
比如这一段是扩展的高
级话题,和主线的相关度较低,
可以先
skim
到后面,注意不是让你
skip
到后面,这一段还
是要读的,
但是不必逐字句地读,
而是抓主旨,
大概讲了个什么概念
(有一些下定义的句式)
,
有哪些要点
(有数字编号或
bullet
列表项)
,
适用于哪些场合有哪些注意事项
(有
caveat
、
gotcha
、
noteworthy
这种字眼),后面可能还会碰到这个概念,虽然你没有仔细看这是个
什么东西,
但大体上也知道了,
这样就能不影响后面的阅读,
这不仅需要高度集中的注意力、
熟练的语言能力,
而且要有足够的背景知识去猜测性地理解。
但是语言能力还是最重要的因
素,我和几个同学交流过,他们也能熟练地看英文书,但是需要
skim
查一个东西时就觉得
还是不如中文书查得快。
skim
的技能在查阅手册时尤其重要,没有人会像看入门书一样把
上千页的手册从头到尾看一遍,
都是用到哪儿就查哪儿。
总之,
锻炼各种阅读习惯就为了一
个目的:如何在最短的时间内,
在保证正确性的前提下,
获取尽可能多的知识。程序员的学
习时间都是非常宝贵的。
以上本着“够用就好”的原则,
多次提到用懒办法,
但是学技术学英语这两件事不能懒,
贵
在坚持。
要养成良好的阅读习惯也有很多东西需要坚持,
其中最根本的是持续高度集中注意
力,充分调动记忆能力、推理能力、猜测能力,就像考试做阅读题一样看每一段话。最根本
也是最重要的,
“有英文原版就不看中文版”这个原则一定要坚持。
一开始看英文书可能会
很慢,
但只要一直坚持就会慢慢达到原来看中文书的速度,
再坚持下去就会比中文书看得更
有效率,因为避免了很多歧义和术语翻译的问题。
有人会说,
项目紧任务急,看英文资料太
慢,
这次就先用中文尽快解决工作中的问题吧,
等以后有时间了再看英文书学习。
可是什么
时候才会有时间呢?工作总是一个接一个的,
老板怎么会付了工资让你闲着呢?如果你有这
样的困难,
我的建议是干脆辞职,学好了英文再去工作。
你只要想想,
你的同行们在外企全
英文的环境下工作,
英文和技术每天都在突飞猛进,
而你还在用效率极其低下的方式学习和
工作,
你和别人的差距不是越来越大了吗?另一方面,
现在的在校学生从小学就开始抓英语,
基础都很好,
很多高校也逐渐重视引进原版教材,
开设很多英文授课的专业课。
你再不奋起
直追,就不觉得以后的职业道路充满危机吗?
最后说说写作。
刚开始练习时不要怕写错,
能表达清楚自己的意思即可。
我看过很多源代码
和文档中的英文,一看就是中国人写的,谓语动词不分单复数,名词复数不加
s
,处处可见
中国式英语,
但是丝毫不影响我对这些编程大牛的景仰,
因为其中的思想我看懂了,
并且我
认为很强大。我有一个朋友,中学毕业就出来混的,由于工作的性质总要跟老外打交道,他
从来不惧和老外交流,
虽然连一个囫囵的句子都说不出来,
但总是能用中学学的那点单词让
老外明白他的意思,
这一点我就非常佩服。
总之就是说,
不要因为不知道怎么写是对的就不
敢动笔写,
只要敢交流,
并且别人能懂你的意思,
就是很有效的交流。
而且随着阅读量的增
加,自然能写出一手好英文,前面讲过了,创作总是从模仿开始的。不怕出错才能有一个好
的开始,
才能逐步练习提高,
而练习的最终目的当然还是希望写好,
不仅字句通顺无语法错
误,还能适当修辞。
3. 那个RFC历史任务区域的地图在哪个网上
TCP不是业务,TCP是一种传输控制协议。
如果出现该项扣流量,是属于操作上出的问题,应该是系统内置的某个应用指向了某些数据流产生的。
TCP(Transmission Control Protocol 传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信协议,由IETF的RFC 793定义。TCP层是位于IP层之上,应用层之下的中间层。不同主机的应用层之间经常需要可靠的、像管道一样的连接,但是IP层不提供这样的流机制,而是提供不可靠的包交换。
4. 请问 OSPF特殊区域中的Stub、Totally Stub、NSSA、Totally NSSA 的区别 特性 作用!
OSPF简介
4.1.1 ospf概述
开放最短路径优先协议ospf(open shortest path first)是ietf组织开发的一个基于链路状态的内部网关协议。目前使用的是版本2(rfc2328),其特性如下:
适应范围――支持各种规模的网络,最多可支持几百台路由器。
快速收敛――在网络的拓扑结构发生变化后立即发送更新报文,使这一变化在自治系统中同步。
无自环――由于ospf根据收集到的链路状态用最短路径树算法计算路由,从算法本身保证了不会生成自环路由。
区域划分――允许自治系统的网络被划分成区域来管理,区域间传送的路由信息被进一步抽象,从而减少了占用的网络带宽。
等价路由――支持到同一目的地址的多条等价路由。
路由分级――使用4类不同的路由,按优先顺序来说分别是:区域内路由、区域间路由、第一类外部路由、第二类外部路由。
支持验证――支持基于接口的报文验证以保证路由计算的安全性。
组播发送――协议报文支持以组播形式发送。
4.1.2 ospf协议基本原理
在不考虑区域划分的情况下,ospf协议的路由计算过程可简单描述如下:
每个支持ospf协议的路由器都维护着一份描述整个自治系统拓扑结构的链路状态数据库lsdb(link state database)。每台路由器根据自己周围的网络拓扑结构生成链路状态广播lsa(link state advertisement),通过相互之间发送协议报文将lsa发送给网络中其它路由器。这样每台路由器都收到了其它路由器的lsa,所有的lsa放在一起便组成了链路状态数据库。
lsa是对路由器周围网络拓扑结构的描述,lsdb则是对整个网络的拓扑结构的描述。路由器很容易将lsdb转换成一张带权的有向图,这张图便是对整个网络拓扑结构的真实反映。显然,各个路由器得到的是一张完全相同的图。
每台路由器都使用spf算法计算出一棵以自己为根的最短路径树,这棵树给出了到自治系统中各节点的路由,外部路由信息为叶子节点,外部路由可由广播它的路由器进行标记以记录关于自治系统的额外信息。显然,各个路由器各自得到的路由表是不同的。
此外,为使每台路由器能将本地状态信息(如可用接口信息、可达邻居信息等)广播到整个自治系统中,在路由器之间要建立多个邻接关系,这使得任何一台路由器的路由变化都会导致多次传递,既没有必要,也浪费了宝贵的带宽资源。为解决这一问题,ospf协议定义了“指定路由器”dr(designated router)与“备份指定路由器”bdr(backup designated router),关于dr与bdr详细机制,请参见4.1.4 3. dr和bdr一节。
ospf协议支持基于接口的报文验证以保证路由计算的安全性;并使用ip多播方式发送和接收报文(224.0.0.5和224.0.0.6)。
4.1.3 ospf的基本概念
1. 路由器id号
一台路由器如果要运行ospf协议,必须存在router id。router id可以手工配置,如果没有配置router id,系统会从接口的ip地址中自动选择一个作为router id。其选择顺序是:如果配置了loopback接口地址,则选择最后配置的ip地址作为router id,如果没有配置loopback接口地址,则选择其他接口中最先配置的ip地址作为router id。
2. dr和bdr
指定路由器dr(designated router)
在多路访问网络中,如果路由器之间两两建立邻接关系,会导致在路由交换时同一个lsa在网络内部被多次重复传递,浪费了宝贵的带宽资源。为了解决这一问题,ospf协议规定,在多路访问网络中必须选举dr,网络中的路由器只和dr(以及后面提到的bdr)建立邻接关系并交换路由,两台非dr和bdr路由器之间不建立邻接关系,也不交换路由信息。
哪一台路由器会成为本网段内的dr并不是人为指定的,而是由本网段中所有的路由器共同选举出来的。
备份指定路由器bdr(backup designated router)
如果dr由于某种故障而失效,这时必须重新选举dr,并与之同步。这需要较长的时间,在这段时间内,路由计算是不正确的。为了能够缩短这个过程,ospf提出了bdr的概念。bdr实际上是对dr的一个备份,在选举dr的同时也选举出bdr,bdr也和本网段内的所有路由器建立邻接关系并交换路由信息。当dr失效后,bdr会立即成为dr。
3. 区域(area)
随着网络规模日益扩大,当一个巨型网络中的路由器都运行ospf路由协议时,路由器数量的增多会导致lsdb非常庞大,占用大量的存储空间,并使得运行spf算法的复杂度增加,导致cpu负担很重;并且,网络规模增大之后,拓扑结构发生变化的概率也增大,网络会经常处于“动荡”之中,造成网络中会有大量的ospf协议报文在传递,降低了网络的带宽利用率。而且每一次变化都会导致网络中所有的路由器重新进行路由计算。
ospf协议通过将自治系统划分成不同的区域(area)来解决上述问题。区域是在逻辑上将路由器划分为不同的组。区域的边界是路由器,这样会有一些路由器属于不同的区域,连接骨干区域和非骨干区域的路由器称作区域边界路由器――abr,abr与骨干区域之间既可以是物理连接,也可以是逻辑上的连接。
ospf划分区域后,可以减少网络中lsa的数量,ospf的扩展性也得以增强。对于位于as边缘的一些非骨干区域,为了更多的缩减其路由表规模和降低lsa的数量,可以将它们配置为stub区域。
stub区域不能引入外部路由,为此又产生了nssa区域的概念。nssa区域中允许type7 lsa的传播。type7 lsa由nssa区域的asbr产生,当它到达nssa的abr时,就会转换成as-external lsa,并通告到其他区域。
4. 骨干区域和虚连接
骨干区域(backbone area)
ospf划分区域之后,并非所有的区域都是平等的关系。其中有一个区域是与众不同的,它的区域号(area id)是0,通常被称为骨干区域。
虚连接(virtual link)
由于所有区域都必须与骨干区域连通,特别引入了虚连接的概念,使那些物理上和骨干区域分离的区域仍可在逻辑上保持和骨干区域的连通性。
5. 路由聚合
as被划分成不同的区域,每一个区域通过ospf边界路由器(abr)相连,区域间可以通过路由聚合来减少路由信息,减小路由表的规模,提高路由器的运算速度。
abr在计算出一个区域的区域内路由之后,根据聚合相关配置,将其中多条ospf路由聚合成一条发送到区域之外。
例如,图4-1中,area 19内有三条区域内路由19.1.1.0/24,19.1.2.0/24,19.1.3.0/24,如果此时配置了路由聚合,将三条路由聚合成一条19.1.0.0/16,在rta上就只生成一条描述聚合后路由的lsa。
4.1.4 ospf的网络类型
1. ospf的4种网络类型
ospf根据链路层协议类型将网络分为下列四种类型:
广播(broadcast)类型:当链路层协议是ethernet、fddi时,ospf缺省认为网络类型是broadcast。在该类型的网络中,通常以组播形式(224.0.0.5和224.0.0.6)发送协议报文。
nbma(non-broadcast multi-access,非广播多点可达网络)类型:当链路层协议是帧中继、atm或x.25时,ospf缺省认为网络类型是nbma。在该类型的网络中,以单播形式发送协议报文。
点到多点p2mp(point-to-multipoint)类型:没有一种链路层协议会被缺省的认为是p2mp类型。点到多点必须是由其他的网络类型强制更改的。常用做法是将nbma改为点到多点的网络。在该类型的网络中,以组播形式(224.0.0.5)发送协议报文。
点到点p2p(point-to-point)类型:当链路层协议是ppp、hdlc时,ospf缺省认为网络类型是p2p。在该类型的网络中,以组播形式(224.0.0.5)发送协议报文。
2. nbma网络的配置原则
nbma网络是指非广播、多点可达的网络,比较典型的有atm和帧中继网络。
对于接口类型为nbma的网络需要进行一些特殊的配置。由于无法通过广播hello报文的形式发现相邻路由器,必须手工为该接口指定相邻路由器的ip地址,以及该相邻路由器是否有dr选举权等。
nbma网络必须是全连通的,即网络中任意两台路由器之间都必须有一条虚电路直接可达。如果部分路由器之间没有直接可达的链路时,应将接口配置成p2mp方式。如果路由器在nbma网络中只有一个对端,也可将接口类型改为p2p方式。
nbma与p2mp网络之间的区别:
nbma是指那些全连通的、非广播、多点可达网络。而点到多点的网络,则并不需要一定是全连通的。
在nbma上需要选举dr与bdr,而在点到多点网络中没有dr与bdr。
nbma是一种缺省的网络类型,点到多点必须是由其它的网络强制更改的。最常见的做法是将nbma改为点到多点的网络。
nbma用单播发送报文,需要手工配置邻居。点到多点采用组播方式发送报文。
3. dr和bdr
在广播网和nbma网络中,任意两台路由器之间都要传递路由信息。如果网络中有n台路由器,则需要建立nx(n-1)/2个邻接关系。这使得任何一台路由器的路由变化都会导致多次传递,浪费了带宽资源。为解决这一问题,ospf协议定义了指定路由器dr(designated router),所有路由器都只将信息发送给dr,由dr将网络链路状态发送出去。
如果dr由于某种故障而失效,则网络中的路由器必须重新选举dr,再与新的dr同步。这需要较长的时间,在这段时间内,路由的计算是不正确的。为了能够缩短这个过程,ospf提出了bdr(backup designated router)的概念。
bdr实际上是对dr的一个备份,在选举dr的同时也选举出bdr,bdr也和本网段内的所有路由器建立邻接关系并交换路由信息。当dr失效后,bdr会立即成为dr。由于不需要重新选举,并且邻接关系事先已建立,所以这个过程是非常短暂的。当然这时还需要再重新选举出一个新的bdr,虽然一样需要较长的时间,但并不会影响路由的计算。
除dr和bdr之外的路由器(称为dr other)之间将不再建立邻接关系,也不再交换任何路由信息。这样就减少了广播网和nbma网络上各路由器之间邻接关系的数量。
如图4-2所示,用实线代表以太网物理连接,虚线代表建立的邻接关系。可以看到,采用dr/bdr机制后,5台路由器之间只需要建立7个邻接关系就可以了。
4. dr/bdr的选举过程
dr和bdr不是人为指定的,而是由本网段中所有的路由器共同选举出来的。路由器接口的dr优先级决定了该接口在选举dr、bdr时所具有的资格。本网段内dr优先级大于0的路由器都可作为“候选人”。
选举中使用的“选票”就是hello报文。每台路由器将自己选出的dr写入hello报文中,发给网段上的每台运行ospf协议的路由器。当处于同一网段的两台路由器同时宣布自己是dr时,dr优先级高者胜出。如果优先级相等,则router id大者胜出。如果一台路由器的优先级为0,则它不会被选举为dr或bdr。
只有在广播或nbma类型接口才会选举dr,在点到点或点到多点类型的接口上不需要选举dr。
dr是指某个网段中概念,是针对路由器的接口而言的。某台路由器在一个接口上可能是dr,在另一个接口上有可能是bdr,或者是dr other。
若dr、bdr已经选择完毕,当一台新路由器加入后,即使它的dr优先级值最大,也不会立即成为该网段中的dr。
dr并不一定就是dr优先级最大的路由器;同理,bdr也并不一定就是dr优先级第二大的路由器。
4.1.5 ospf的协议报文
ospf有五种报文类型:
hello报文(hello packet):
最常用的一种报文,周期性的发送给本路由器的邻居。内容包括一些定时器的数值、dr、bdr(backup designated router)以及自己已知的邻居。
dd报文(database description packet):
两台路由器进行数据库同步时,用dd报文来描述自己的lsdb,内容包括lsdb中每一条lsa的摘要(摘要是指lsa的head,通过该head可以唯一标识一条lsa)。这样做是为了减少路由器之间传递信息的量,因为lsa的head只占一条lsa的整个数据量的一小部分,根据head,对端路由器就可以判断出是否已有这条lsa。
lsr报文(link state request packet):
两台路由器互相交换过dd报文之后,知道对端的路由器有哪些lsa是本地的lsdb所缺少的,这时需要发送lsr报文向对方请求所需的lsa。内容包括所需要的lsa的摘要。
lsu报文(link state update packet):
用来向对端路由器发送所需要的lsa,内容是多条lsa(全部内容)的集合。
lsack报文(link state acknowledgment packet)
用来对接收到的lsu报文进行确认。内容是需要确认的lsa的head(一个报文可对多个lsa进行确认)。
4.1.6 ospf的lsa类型
1. 五类基本的lsa
根据前面几节的介绍可以了解,链路状态广播报文lsa是ospf协议计算和维护路由信息的主要来源。在rfc2328中定义了五类lsa,描述如下:
router-lsas:第一类lsa(type-1),由每个路由器生成,描述本路由器的链路状态和花费,只在路由器所处区域内传播。
network-lsas:第二类lsa(type-2),由广播网络和nbma网络的dr生成,描述本网段的链路状态,只在dr所处区域内传播。
summary-lsas:包含第三类lsa和第四类lsa(type-3,type-4),由区域边界路由器abr生成,在与该lsa相关的区域内传播。每一条summary-lsa描述一条到达本自治系统的、其它区域的某一目的地的路由(即区域间路由:inter-area route)。type-3 summary-lsas描述去往网络的路由(目的地为网段),type-4 summary-lsas描述去往自治系统边界路由器asbr的路由。
as-external-lsas:第五类lsa(type-5),也可以写成ase lsa,由自治系统边界路由器asbr生成,描述到达其它as的路由,传播到整个as(stub区域除外)。as的缺省路由也可以用as-external-lsas来描述。
2. 第七类lsa
在rfc1587(ospf nssa option)中增加了一类新的lsa:type-7 lsas。
根据rfc1587的描述,type-7 lsas与type-5 lsas主要有以下两点区别:
type-7 lsas在nssa区域(not-so-stubby area)内产生和发布;但nssa区域内不会产生或发布type-5 lsas。
type-7 lsas只能在一个nssa内发布,当到达区域边界路由器abr时,abr可以选择将type-7 lsas中的部分路由信息转换成type-5 lsas发布,type-7 lsas不直接发布到其它区域或骨干区域。
4.1.7 h3c s7500系列以太网交换机支持的ospf特性
在h3c s7500系列以太网交换机的实现中,支持以下ospf特性:
支持stub区域:定义了stub区域以节省该区域内路由器接收ase路由时的开销。
支持nssa区域:定义了nssa区域,以克服stub区域对于拓扑结构的限制。nssa是not-so-stubby area的简写。
支持ospf多进程(multi-process),可以在一台路由器上运行多个ospf进程。
可以和其它动态路由协议共享所发现的路由信息:在现阶段,支持将rip等动态路由协议和静态路由作为ospf的外部路由引入到路由器所属的自治系统中去,或将ospf自身发现的路由信息发布到其它路由协议中去。
授权验证字:ospf对同一区域内的相邻路由器之间可以选择明文串验证字和md5加密验证字两种报文合法性验证手段。
路由器接口参数的灵活配置:在路由器的接口上,可以配置ospf的参数包括:输出花费、hello报文发送间隔、重传间隔、接口传输时延、路由优先级、相邻路由器“失效”时间、报文验证方式和报文验证字等。
虚连接:支持创建和配置虚连接。
丰富的调试信息:提供了丰富的调试信息帮助用户诊断故障。
进入数字货币领域,只需要记住排名前一百市值的数字货币或者运营团队比较靠谱币种名称就可以了,像ETH、XRP、EOS、LRC、BTM、LRN、MANA、NAS、HT等。
6. 啥是分片技术
写在文前:视频版本和文字版本略有不同,想要看我深情并茂演绎,请看视频版本 (喵懂区块链22期|分片(Sharding):以太坊太慢,“盘”他!),思维逻辑怪,请看文案加长版。
最近以太坊由于君士坦丁堡升级(Constantinople)而出现了压倒性的积极走势,而以太坊的升级之路则犹如升级打怪一般,落入了rabbithole,谁也不知道这洞有多深。既然是“路漫漫其修远兮”,则把脚下的每一步走好走准,则成了至关重要的点。攻破这一难点之后,以太坊的下一技术难点---Sharding分片,则又被摆到了台面上。本期《喵懂区块链》会带大家走进让以太坊快起来的法宝--- Sharding分片。
什么是sharding分片?
分片技术其实并不是什么新概念,起初是针对大型中心数据库提出的优化方案,具体来说就是将大型数据库中的数据划按照某种规则分成很多数据分片(shard),再将这些数据分片分别存放在不同的服务器中,以减小每个服务器的数据访问压力,从而提高整个数据库系统的性能。
我们举一个通俗的小例子:
比如我们平时经常使用的美团,滴滴打车等软件,就可以按照“城市”来进行分片,由于不同城市的数据不需要互通,就可以将不同城市的数据存放在不同数据库中,这样既可以把数据库服务器部署到离对应城市最近的节点上,还可以提高访问速度,何乐而不为呢?!
从上面的例子中,我大家应该对分片的概念有了初步了解,那么对应到区块链场景中来说,分片又是怎么样的呢?
以以太坊分片为例,在原有的单链系统中,公链整体的性能取决于单个节点的性能,进行分片之后,每个节点只需要承当全网部分工作,各个分片并行工作,按照Vitalik的话来说,each shard is like a separate galaxy每个分片都像是独立的小宇宙,这样效率自然噌噌噌提升!原本以太坊链全网TPS约为20,现在若增加到100个分片,那么全网TPS可以提升至2000,同理,全网容量也将提升至原来的100倍。
“每个节点只需要承担全网部分工作”,这就会引出几大问题,1.怎么确定这个节点是负责哪个分片的工作?2.哪些交易应该归类到哪些分片当中去?3.每个节点是否只需要储存自己所在分片的交易信息(账本)?
根据以上问题的实现与否,我们可以将分片依次分为三种类型:网络分片,交易分片,状态分片。
网络分片:如何将全网节点划分到不同分片当中去。
交易分片:如何将全网交易划分到不同分片当中去。
状态分片:如何让各个节点只维护各自分片内的账本,但又不影响整个系统的安全性。
主链和分片链的区别和联系?
分片的类型我们已经明白了,那么主链(Main chain)和分片链(shard chain)有什么不同呢?
向左转|向右转
以太坊分片的实现是一个漫长的过程,就连Vitalik自己也说将会分阶段来逐步实现,分片到底能不能从理论走向实践,我们还是小小期待一下吧。
7. 32位md5
MD5(111111,32) =
MD5(111111,16) = 965eb72c92a549dd
受之以鱼,不如受之以渔。以下是两个查询md5的网站
www.cmd5.com
www.xmd5.com
MD5的全称是Message-Digest Algorithm 5(信息-摘要算法),在90年代初由MIT Laboratory for Computer Science和RSA Data Security Inc的Ronald L. Rivest开发出来,经MD2、MD3和MD4发展而来。它的作用是让大容量信息在用数字签名软件签署私人密匙前被"压缩"成一种保密的格式(就是把一个任意长度的字节串变换成一定长的大整数)。不管是MD2、MD4还是MD5,它们都需要获得一个随机长度的信息并产生一个128位的信息摘要。虽然这些算法的结构或多或少有些相似,但MD2的设计与MD4和MD5完全不同,那是因为MD2是为8位机器做过设计优化的,而MD4和MD5却是面向32位的电脑。这三个算法的描述和C语言源代码在Internet RFCs 1321中有详细的描述(http://www.ietf.org/rfc/rfc1321.txtmmkey.com),这是一份最权威的文档,由Ronald L. Rivest在1992年8月向IEFT提交。
Rivest在1989年开发出MD2算法。在这个算法中,首先对信息进行数据补位,使信息的字节长度是16的倍数。然后,以一个16位的检验和追加到信息末尾。并且根据这个新产生的信息计算出散列值。后来,Rogier和Chauvaud发现如果忽略了检验和将产生MD2冲突。MD2算法的加密后结果是唯一的--既没有重复。
为了加强算法的安全性,Rivest在1990年又开发出MD4算法。MD4算法同样需要填补信息以确保信息的字节长度加上448后能被512整除(信息字节长度mod 512 = 448)。然后,一个以64位二进制表示的信息的最初长度被添加进来。信息被处理成512位Damg?rd/Merkle迭代结构的区块,而且每个区块要通过三个不同步骤的处理。Den Boer和Bosselaers以及其他人很快的发现了攻击MD4版本中第一步和第三步的漏洞。Dobbertin向大家演示了如何利用一部普通的个人电脑在几分钟内找到MD4完整版本中的冲突(这个冲突实际上是一种漏洞,它将导致对不同的内容进行加密却可能得到相同的加密后结果)。毫无疑问,MD4就此被淘汰掉了。
尽管MD4算法在安全上有个这么大的漏洞,但它对在其后才被开发出来的好几种信息安全加密算法的出现却有着不可忽视的引导作用。除了MD5以外,其中比较有名的还有SHA-1、RIPE-MD以及HAVAL等。
一年以后,即1991年,Rivest开发出技术上更为趋近成熟的MD5算法。它在MD4的基础上增加了"安全-带子"(Safety-Belts)的概念。虽然MD5比MD4稍微慢一些,但却更为安全。这个算法很明显的由四个和MD4设计有少许不同的步骤组成。在MD5算法中,信息-摘要的大小和填充的必要条件与MD4完全相同。Den Boer和Bosselaers曾发现MD5算法中的假冲突(Pseudo-Collisions),但除此之外就没有其他被发现的加密后结果了。
Van Oorschot和Wiener曾经考虑过一个在散列中暴力搜寻冲突的函数(Brute-Force Hash Function),而且他们猜测一个被设计专门用来搜索MD5冲突的机器(这台机器在1994年的制造成本大约是一百万美元)可以平均每24天就找到一个冲突。但单从1991年到2001年这10年间,竟没有出现替代MD5算法的MD6或被叫做其他什么名字的新算法这一点,我们就可以看出这个瑕疵并没有太多的影响MD5的安全性。上面所有这些都不足以成为MD5的在实际应用中的问题。并且,由于MD5算法的使用不需要支付任何版权费用的,所以在一般的情况下(非绝密应用领域。但即便是应用在绝密领域内,MD5也不失为一种非常优秀的中间技术),MD5怎么都应该算得上是非常安全的了。
算法的应用
MD5的典型应用是对一段信息(Message)产生信息摘要(Message-Digest),以防止被篡改。比如,在UNIX下有很多软件在下载的时候都有一个文件名相同,文件扩展名为.md5的文件,在这个文件中通常只有一行文本,大致结构如:
MD5 (tanajiya.tar.gz) =
这就是tanajiya.tar.gz文件的数字签名。MD5将整个文件当作一个大文本信息,通过其不可逆的字符串变换算法,产生了这个唯一的MD5信息摘要。如果在以后传播这个文件的过程中,无论文件的内容发生了任何形式的改变(包括人为修改或者下载过程中线路不稳定引起的传输错误等),只要你对这个文件重新计算MD5时就会发现信息摘要不相同,由此可以确定你得到的只是一个不正确的文件。如果再有一个第三方的认证机构,用MD5还可以防止文件作者的"抵赖",这就是所谓的数字签名应用。
MD5还广泛用于加密和解密技术上。比如在UNIX系统中用户的密码就是以MD5(或其它类似的算法)经加密后存储在文件系统中。当用户登录的时候,系统把用户输入的密码计算成MD5值,然后再去和保存在文件系统中的MD5值进行比较,进而确定输入的密码是否正确。通过这样的步骤,系统在并不知道用户密码的明码的情况下就可以确定用户登录系统的合法性。这不但可以避免用户的密码被具有系统管理员权限的用户知道,而且还在一定程度上增加了密码被破解的难度。
正是因为这个原因,现在被黑客使用最多的一种破译密码的方法就是一种被称为"跑字典"的方法。有两种方法得到字典,一种是日常搜集的用做密码的字符串表,另一种是用排列组合方法生成的,先用MD5程序计算出这些字典项的MD5值,然后再用目标的MD5值在这个字典中检索。我们假设密码的最大长度为8位字节(8 Bytes),同时密码只能是字母和数字,共26+26+10=62个字符,排列组合出的字典的项数则是P(62,1)+P(62,2)….+P(62,8),那也已经是一个很天文的数字了,存储这个字典就需要TB级的磁盘阵列,而且这种方法还有一个前提,就是能获得目标账户的密码MD5值的情况下才可以。这种加密技术被广泛的应用于UNIX系统中,这也是为什么UNIX系统比一般操作系统更为坚固一个重要原因。
算法描述
对MD5算法简要的叙述可以为:MD5以512位分组来处理输入的信息,且每一分组又被划分为16个32位子分组,经过了一系列的处理后,算法的输出由四个32位分组组成,将这四个32位分组级联后将生成一个128位散列值。
在MD5算法中,首先需要对信息进行填充,使其字节长度对512求余的结果等于448。因此,信息的字节长度(Bits Length)将被扩展至N*512+448,即N*64+56个字节(Bytes),N为一个正整数。填充的方法如下,在信息的后面填充一个1和无数个0,直到满足上面的条件时才停止用0对信息的填充。然后,在在这个结果后面附加一个以64位二进制表示的填充前信息长度。经过这两步的处理,现在的信息字节长度=N*512+448+64=(N+1)*512,即长度恰好是512的整数倍。这样做的原因是为满足后面处理中对信息长度的要求。
MD5中有四个32位被称作链接变量(Chaining Variable)的整数参数,他们分别为:A=0x01234567,B=0x89abcdef,C=0xfedcba98,D=0x76543210。
当设置好这四个链接变量后,就开始进入算法的四轮循环运算。循环的次数是信息中512位信息分组的数目。
将上面四个链接变量复制到另外四个变量中:A到a,B到b,C到c,D到d。
主循环有四轮(MD4只有三轮),每轮循环都很相似。第一轮进行16次操作。每次操作对a、b、c和d中的其中三个作一次非线性函数运算,然后将所得结果加上第四个变量,文本的一个子分组和一个常数。再将所得结果向右环移一个不定的数,并加上a、b、c或d中之一。最后用该结果取代a、b、c或d中之一。
以一下是每次操作中用到的四个非线性函数(每轮一个)。
F(X,Y,Z) =(X&Y)|((~X)&Z)
G(X,Y,Z) =(X&Z)|(Y&(~Z))
H(X,Y,Z) =X^Y^Z
I(X,Y,Z)=Y^(X|(~Z))
(&是与,|是或,~是非,^是异或)
这四个函数的说明:如果X、Y和Z的对应位是独立和均匀的,那么结果的每一位也应是独立和均匀的。
F是一个逐位运算的函数。即,如果X,那么Y,否则Z。函数H是逐位奇偶操作符。
假设Mj表示消息的第j个子分组(从0到15),<<
FF(a,b,c,d,Mj,s,ti)表示a=b+((a+(F(b,c,d)+Mj+ti)<< GG(a,b,c,d,Mj,s,ti)表示a=b+((a+(G(b,c,d)+Mj+ti)<< HH(a,b,c,d,Mj,s,ti)表示a=b+((a+(H(b,c,d)+Mj+ti)<< II(a,b,c,d,Mj,s,ti)表示a=b+((a+(I(b,c,d)+Mj+ti)<<
这四轮(64步)是:
第一轮
FF(a,b,c,d,M0,7,0xd76aa478)
FF(d,a,b,c,M1,12,0xe8c7b756)
FF(c,d,a,b,M2,17,0x242070db)
FF(b,c,d,a,M3,22,0xc1bdceee)
FF(a,b,c,d,M4,7,0xf57c0faf)
FF(d,a,b,c,M5,12,0x4787c62a)
FF(c,d,a,b,M6,17,0xa8304613)
FF(b,c,d,a,M7,22,0xfd469501)
FF(a,b,c,d,M8,7,0x698098d8)
FF(d,a,b,c,M9,12,0x8b44f7af)
FF(c,d,a,b,M10,17,0xffff5bb1)
FF(b,c,d,a,M11,22,0x895cd7be)
FF(a,b,c,d,M12,7,0x6b901122)
FF(d,a,b,c,M13,12,0xfd987193)
FF(c,d,a,b,M14,17,0xa679438e)
FF(b,c,d,a,M15,22,0x49b40821)
第二轮
GG(a,b,c,d,M1,5,0xf61e2562)
GG(d,a,b,c,M6,9,0xc040b340)
GG(c,d,a,b,M11,14,0x265e5a51)
GG(b,c,d,a,M0,20,0xe9b6c7aa)
GG(a,b,c,d,M5,5,0xd62f105d)
GG(d,a,b,c,M10,9,0x02441453)
GG(c,d,a,b,M15,14,0xd8a1e681)
GG(b,c,d,a,M4,20,0xe7d3fbc8)
GG(a,b,c,d,M9,5,0x21e1cde6)
GG(d,a,b,c,M14,9,0xc33707d6)
GG(c,d,a,b,M3,14,0xf4d50d87)
GG(b,c,d,a,M8,20,0x455a14ed)
GG(a,b,c,d,M13,5,0xa9e3e905)
GG(d,a,b,c,M2,9,0xfcefa3f8)
GG(c,d,a,b,M7,14,0x676f02d9)
GG(b,c,d,a,M12,20,0x8d2a4c8a)
第三轮
HH(a,b,c,d,M5,4,0xfffa3942)
HH(d,a,b,c,M8,11,0x8771f681)
HH(c,d,a,b,M11,16,0x6d9d6122)
HH(b,c,d,a,M14,23,0xfde5380c)
HH(a,b,c,d,M1,4,0xa4beea44)
HH(d,a,b,c,M4,11,0x4bdecfa9)
HH(c,d,a,b,M7,16,0xf6bb4b60)
HH(b,c,d,a,M10,23,0xbebfbc70)
HH(a,b,c,d,M13,4,0x289b7ec6)
HH(d,a,b,c,M0,11,0xeaa127fa)
HH(c,d,a,b,M3,16,0xd4ef3085)
HH(b,c,d,a,M6,23,0x04881d05)
HH(a,b,c,d,M9,4,0xd9d4d039)
HH(d,a,b,c,M12,11,0xe6db99e5)
HH(c,d,a,b,M15,16,0x1fa27cf8)
HH(b,c,d,a,M2,23,0xc4ac5665)
第四轮
II(a,b,c,d,M0,6,0xf4292244)
II(d,a,b,c,M7,10,0x432aff97)
II(c,d,a,b,M14,15,0xab9423a7)
II(b,c,d,a,M5,21,0xfc93a039)
II(a,b,c,d,M12,6,0x655b59c3)
II(d,a,b,c,M3,10,0x8f0ccc92)
II(c,d,a,b,M10,15,0xffeff47d)
II(b,c,d,a,M1,21,0x85845dd1)
II(a,b,c,d,M8,6,0x6fa87e4f)
II(d,a,b,c,M15,10,0xfe2ce6e0)
II(c,d,a,b,M6,15,0xa3014314)
II(b,c,d,a,M13,21,0x4e0811a1)
II(a,b,c,d,M4,6,0xf7537e82)
II(d,a,b,c,M11,10,0xbd3af235)
II(c,d,a,b,M2,15,0x2ad7d2bb)
II(b,c,d,a,M9,21,0xeb86d391)
常数ti可以如下选择:
在第i步中,ti是4294967296*abs(sin(i))的整数部分,i的单位是弧度。(4294967296等于2的32次方)
所有这些完成之后,将A、B、C、D分别加上a、b、c、d。然后用下一分组数据继续运行算法,最后的输出是A、B、C和D的级联。
当你按照我上面所说的方法实现MD5算法以后,你可以用以下几个信息对你做出来的程序作一个简单的测试,看看程序有没有错误。
MD5 ("") =
MD5 ("a") =
MD5 ("abc") =
MD5 ("message digest") =
MD5 ("abcdefghijklmnopqrstuvwxyz") =
MD5 ("") =
MD5 ("
01234567890") =
如果你用上面的信息分别对你做的MD5算法实例做测试,最后得出的结论和标准答案完全一样,那我就要在这里象你道一声祝贺了。要知道,我的程序在第一次编译成功的时候是没有得出和上面相同的结果的。
MD5的安全性
MD5相对MD4所作的改进:
1. 增加了第四轮;
2. 每一步均有唯一的加法常数;
3. 为减弱第二轮中函数G的对称性从(X&Y)|(X&Z)|(Y&Z)变为(X&Z)|(Y&(~Z));
4. 第一步加上了上一步的结果,这将引起更快的雪崩效应;
5. 改变了第二轮和第三轮中访问消息子分组的次序,使其更不相似;
6. 近似优化了每一轮中的循环左移位移量以实现更快的雪崩效应。各轮的位移量互不相同。
祝你好运!!!
8. 什么是时间戳,时间戳是干嘛用的
是由数字签名技术产生的,签名的对象主要有签名时间、签名参数、原始文件信息等信息。
时间戳的主要作用就是验证数据是否被篡改,这也是人们创建它的主要目的,它通过一定的技术手段,对某一数据产生的时间进行认证,以此来确定这一数据在产生后是否被篡改过。
故此提供时间戳服务的人必须证明服务中使用的时间源是可信的,这样才能保证他提供的时间戳服务是安全的。区块链中的时间戳签名是写在区块链中某个区域上的。而恰好区块链有一特点就是过去的部分不可能更改也无法修改。所以,区块链中的数据的稳定性和可靠性极高。
(8)区块链rfc扩展阅读
在当今社会,不论是计算机或是手机,或者其他任何电子设备,都可以通过修改它显示的时间,“穿越”到过去,或者“穿梭”到未来,我们也可以通过各种软件来修改图片或者视频等等。因此,在网络上,关于时间的信息似乎失去意义,因为几乎任何人都可以修改它。
不过,在区块链中,时间戳永远不会撒谎,因为区块链过去的部分是不能以任何方式进行修改的。而且时间戳是区块链区块包含特定信息的一个过程,它永远存在。
9. RIP,OSPF等路由协议严格意义上讲属哪一层
RIP基于UDP,BGP基于TCP,OSPF和EIGRP基于IP 。这些在TCP/IP协议栈中定义的路由协议用于发现和维护前往目的地的最短路径。
路由协议(英语:Routing protocol)是一种指定数据包转送方式的网上协议。Internet网络的主要节点设备是路由器,路由器通过路由表来转发接收到的数据。转发策略可以是人工指定的(通过静态路由、策略路由等方法)。在具有较小规模的网络中,人工指定转发策略没有任何问题。
(9)区块链rfc扩展阅读:
常见路由协议
常见的路由协议有RIP、IGRP(Cisco私有协议)、EIGRP(Cisco私有协议)、OSPF、IS-IS、BGP等。
RIP、IGRP、EIGRP、OSPF、IS-IS是内部网关协议(IGP),适用于单个ISP的统一路由协议的运行,一般由一个ISP运营的网络位于一个AS(自治系统)内,有统一的AS number(自治系统号)。
BGP是自治系统间的路由协议,是一种外部网关协议,多用于不同ISP之间交换路由信息,以及大型企业、政府等具有较大规模的私有网络。
RIP
主条目:路由信息协议
RIP很早就被用在Internet上,是最简单的路由协议。它是“路由信息协议(Route Information Protocol)”的简写
主要传递路由信息,通过每隔30秒广播一次路由表,维护相邻路由器的位置关系,同时根据收到的路由表信息计算自己的路由表信息。RIP是一个距离矢量路由协议,最大跳数为15跳,超过15跳的网络则认为目标网络不可达。
此协议通常用在网络架构较为简单的小型网络环境。现在分为RIPv1和RIPv2两个版本,后者支持VLSM技术以及一系列技术上的改进。RIP的收敛速度较慢。
OSPF
主条目:开放式最短路径优先
OSPF协议是“开放式最短路径优先(Open Shortest Path First)”的缩写,属于链路状态路由协议。OSPF提出了“区域(area)”的概念,每个区域中所有路由器维护着一个相同的链路状态数据库(LSDB)。
区域又分为骨干区域(骨干区域的编号必须为0)和非骨干区域(非0编号区域),如果一个运行OSPF的网络只存在单一区域,则该区域可以是骨干区域或者非骨干区域。如果该网络存在多个区域,那么必须存在骨干区域,并且所有非骨干区域必须和骨干区域直接相连。
OSPF利用所维护的链路状态数据库,通过最短路径优先算法(SPF算法)计算得到路由表。OSPF的收敛速度较快。由于其特有的开放性以及良好的扩展性,目前OSPF协议在各种网络中广泛部署。
IS-IS
主条目:中间系统到中间系统
IS-IS协议是Intermediate system to intermediate system(中间系统到中间系统)的缩写,属于链路状态路由协议。
标准IS-IS协议是由国际标准化组织制定的ISO/IEC 10589:2002所定义的,标准IS-IS不适合用于IP网络,因此IETF制定了适用于IP网络的集成化IS-IS协议
和OSPF相同,IS-IS也使用了“区域”的概念,同样也维护着一份链路状态数据库,通过最短生成树算法(SPF)计算出最佳路径。IS-IS的收敛速度较快。集成化IS-IS协议是ISP骨干网上最常用的IGP协议。
IGRP
主条目:内部网关路由协议
IGRP协议是“内部网关路由协议(Interior Gateway Routing Protocol)”的缩写,由Cisco于二十世纪八十年代独立开发,属于Cisco私有协议。
IGRP和RIP一样,同属距离矢量路由协议,因此在诸多方面有着相似点,如IGRP也是周期性的广播路由表,也存在最大跳数(默认为100跳,达到或超过100跳则认为目标网络不可达)。
IGRP最大的特点是使用了混合度量值,同时考虑了链路的带宽、延迟、负载、MTU、可靠性5个方面来计算路由的度量值,而不像其他IGP协议单纯的考虑某一个方面来计算度量值。
目前IGRP已经被Cisco独立开发的EIGRP协议所取代,版本号为12.3及其以上的Cisco IOS(Internetwork Operating System)已经不支持该协议,现在已经罕有运行IGRP协议的网络。
EIGRP
主条目:增强型内部网关路由协议
由于IGRP协议的种种缺陷以及不足,Cisco开发了EIGRP协议(增强型内部网关路由协议)来取代IGRP协议。
EIGRP属于高级距离矢量路由协议(又称混合型路由协议),继承了IGRP的混合度量值,最大特点在于引入了非等价负载均衡技术,并拥有极快的收敛速度。EIGRP协议在Cisco设备网络环境中广泛部署。
BGP
主条目:边界网关协议
为了维护各个ISP的独立利益,标准化组织制定了ISP间的路由协议BGP。BGP是“边界网关协议(Border Gateway Protocol)”的缩写,处理各ISP之间的路由传递。但是BGP运行在相对核心的地位,需要用户对网络的结构有相当的了解,否则可能会造成较大损失。