数学之美 第1章 文字和语言 vs 数字和信息

Posted hg-love-dfc

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数学之美 第1章 文字和语言 vs 数字和信息相关的知识,希望对你有一定的参考价值。

参考书籍:《数学之美》 吴军著

语言和数学的产生都是为了同一个目的:记录和传播信息

技术分享图片

1. 文字的起源:当语言和词汇积累到一定程度(记不住)的时候,产生了高效记录信息的需求——>文字。

2. 文字发展的阶段

  • 象形文字(物体的外表):《亚尼的死者之书》;象形文字增加到一定程度(记不住)的时候,概念开始进行概括和归纳,如日即可表示太阳,也可以表示一天(类比机器学习中的聚类);但是由于文字按照意思来聚类,会导致歧义性(文言文解读),通常借助上下文去除歧义
  • 楔形文字/拼音文字(抽象编码的概念):罗马体系文字中常用字短、生僻字长(汉语常用字笔画少,生僻字笔画多)——信息论最短编码原理

3. 翻译的起源:不同文明下的人们需要交流(通信)产生的需求

翻译成立的前提条件:不同的文字系统在记录信息的能力上时等价的。

罗塞塔石碑(三种语言记录)的破译带来的启示:

  • 文字本身的载体(石头或纸张等)不重要,所承载的信息才是最重要的(Information is what matters!)(信息本身的载体也不重要
  • 信息的冗余是信息安全的保障
  • 语言的数据(语料),尤其是双语或者多语的对照语料对翻译至关重要,是从事机器翻译的基础

4. 数字系统:记录物件的数量不断增多产生的需求(承载信息的工具

对数量进行编码:

  • 用不同的符号代表不同的数字概念,如中国人的个十百千万,罗马人的I、V等
  • 制定对应的解码规则,如中国数字的乘法(二百万=2*100*1000),罗马数字的加减法(IV =  V - I)

5. 口语和书面语

  • 日常的白话口语:通信信道宽(讲话快),信息无需压缩,直接传递
  • 精简文言文:通信信道窄(书写慢),信息需要压缩后传递

  注:日常话——>文言文(压缩)——>日常话(解压缩)

  类比视频传输:宽带互联网(宽带传输,高分辨率)和移动互联网(空中频道带宽限制,低分辨率)

6. 《圣经》的抄写:隐含了错误校验的原理

7. 语言和语法

  • 语法:语言的编码和解码规则
  • 语言:尽管词可以被认为是有限且封闭的集合,但是语言是无限和开放的集合

语言研究方法的争论

  • 语言对:从真实的语句文本(语料)出发——现有的自然语言处理方式
  • 语法对:从规则出发

以上是关于数学之美 第1章 文字和语言 vs 数字和信息的主要内容,如果未能解决你的问题,请参考以下文章

数学之美(吴军著)学习总结和经典摘抄

《数学之美》——第一章 个人笔记

《数学之美》——第二章 个人笔记

数学之美笔记自然语言处理部分.md

【数学之美笔记】自然语言处理部分(一).md

数学之美 第2章 自然语言处理:从规则到统计