达观数据:文字的起源与文本挖掘的前世今生
Posted 达观数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了达观数据:文字的起源与文本挖掘的前世今生相关的知识,希望对你有一定的参考价值。
人类的文明,始于文字诞生。
万年前
古猿进化成人类
万年前
人类学会了使用火
万年前
人类发明了陶器
万年前
人类进入农耕文明,开始种植小麦水稻,驯化了牛羊狗鸡等家畜
年前
人类发明了青铜器
年前
人类发明了文字
年前
人类学会了冶炼铁器
年前
人类进入工业革命
年前
人类进入计算机时代
年前
人类进入互联网时代
100万年前,古猿进化成人类。50万年前,人类学会使用火。5000年前,人类发明文字。
文明并非从天而降,人类从蒙昧、野蛮步入文明,是个漫长而坎坷的过程。远古智人和禽兽并没有什么区别,和动物一样,只有一种把信息传递下去的方式:基因。
文字诞生后,人类学会用字把信息保存下来,才逐渐脱离了动物状态。人们开始了解历史不同时期所发生的事。历史是前人走过的道路,了解来路,人才知道接下来该往哪里去,不至于在原地踏步。
文字,是一切的载体。
有史以来发现最早的人类文字:库辛石板,始于财务记录。
最早出现的文字共有四种:楔形文字、圣书文、玛雅文、甲骨文。
公元前2500年,西亚地区的居民们开始用芦苇秆在泥板上写字,因书写的痕迹形状像楔子,后人称为楔形文字。
“库辛石板”被认为是迄今人类文明最早发现的文字,它由楔形文字刻写:290086单位大麦37个月库存库辛。现代翻译为“在37个月间,总共收到29086单位的大麦,由库辛签核”。
人类最早留下来的文字,既不是诗歌,也不是法律、占卜和宗教内容,而是枯燥的财务借贷账本。
这和人类的大脑构造有关,人脑偏向于记忆图像、路线,却天生不擅长记忆数字。做交易时,数量一旦超出记忆范围,古人类就用土块记录,现代更多依靠计算机来实现。
库辛石板
在距今5400年前的两河流域,苏美尔人写在泥板上的一段财务纪录,穿越了亘古漫长的历史,成为当今文明的见证。
汉谟拉比法典,现代法律文本的起源。
自从数字出现,便有了借贷关系。当交易出现纠纷时,怎么办呢?
在第一部成文法典:《汉谟拉比法典》中,人们便有了规训和准则。
这部人类文明最早的法律,共3500行条例,其中大多是条例法:“打自己父亲的人,要被砍断双手”,“打掉同等地位者牙齿的人,将会被敲掉牙齿”。
“以眼还眼,以牙还牙”的价值观在圣经旧约中也有体现。
这部法律文本的起源,由楔形文字写作。至今还印在许多教科书的封面上。
左:汉谟拉比法典
右:汉谟拉比王
甲骨文是中国最早的象形文字,汉字的演变是由繁至简的过程。
楔形文字在古西亚地区广泛使用,象形文字则发源于埃及。
象形文字即刻画动物形态,圣书文、玛雅文、甲骨文都是象形文字。
甲骨文,早期的象形文字
甲骨文因篆刻于龟甲和兽骨上而得名,发掘于公元前1600年的殷商时期。它以象形手法描述事物,历经千年演化,汉字就成为了人类史上最早诞生的文字中,唯一没有消亡的文字,也是迄今为止唯一在使用的象形文字。
历经悠长岁月,汉字是如何演变的呢?
“达观”在不同年代的不同写法
中国文明源远流长,一脉相承,与汉字的进化也离不开。
随着时代的变迁和语言的丰富,汉字的笔画也逐渐减少,记录文明的方式越是简单,文明的发展也就越快。
古代中国领先世界,除却地大物博,物产丰富,更是文明的先进。造纸术在公元1世纪就已发明,一千年前后才传播到欧洲。自汉代“丝绸之路”开辟,文化交流与融合,继有盛唐万国来朝,海晏河清的繁华景象。
李白曾颂长安“万国同风共一时,锦江何谢曲江池。”鲜为人知的是,李白不仅是个诗人,还是位翻译。唐时渤海国来朝,使者呈书,字体非草非隶,迹异形奇,满朝文武均不识得。为难间,玄宗想到李白,李白果然认识,宣诵如流,玄宗大悦。
罗塞塔石碑,是最早的“破译机”,是人类跨越语言障碍的象征。
翻译是文化交流的重要的桥梁。《圣经·旧约》记载,人类曾有联合起来、建造通往天堂的巴别塔的宏愿。为阻止人类的计划,上帝让人类说不同的语言,使人类之间不能相互沟通。不同语言的隔阂给人类交流带来许多障碍。
最早的“破译机”是公元前196年,古埃及国王托勒密的登基诏书。它同时由古埃及文、希腊文、圣书文记录,刻在黑色大理石上,后世人称为“罗塞塔石碑”。
罗塞塔石碑
罗塞塔石碑,是人类跨越语言障碍的象征。石碑上的对照文本为后人成功破译这三种语言发挥了巨大价值。翻译也逐渐从交流工具变成一门艺术。
时至今日,计算机也可以做一些简单的翻译工作,但机器翻译仍是世界难题。
有人说,机翻远不如人工翻译来的准确,更遑论“信、达、雅”。
一项新发明是需要时间来验证的。蒸汽船刚出现的时候,速度比不上精制的帆船,汽车也跑不过马车,计算机刚诞生的时候,是几十吨重的庞然大物。新技术是通过不断的升级迭代,改进人类的生活。
文字语义理解四代的发展历程。
古人类主动使用文字,就像是使用火,为文明带来了光与热。
30年前,人类进入计算机时代。当下,我们活在互联网时代,对文字的处理,已由人工进化到了计算机。文字由笔画精简、语义渐丰到可用代码破译。
现在计算机做文字处理,是先认识字词、句子,通过字词>语句>篇章三级结构,来进行文字语义分析。
文字语义分析技术的升级有四代进程:
第一代技术(1950s):符号主义,用计算机的符号操作来模拟人的认知过程。
第二代技术(1970s):语法规则,依赖于专家人工制定的语法规则和本体设计(ontological design)。
第三代技术(1990s):统计学习,即让计算机阅读大量文章。
第四代技术(2010s):深度学习,用一个复杂的模型像人脑神经网络一样运作。
符号主义
语法规则
统计学习
深度学习
用词向量(Word2Vec)技术来获取相关词汇。
我们以《全唐诗》为例,来看计算机是如何对文字进行处理。
分析了《全唐诗》5万多首,我们发现,均每5首诗里有3.9首有“人”,充分体现了唐诗的以人为本。
季节方面,“春”的出现比“冬”多得多,出现颜色最高频率是白色,其次是绿和黄。
唐诗的出现的情绪词:77%是悲,17%是思。剩下情绪都是打酱油的存在。
其中悲、思的情感,在唐诗中有许多的替代词。
汉语中很多词都有替代词,其中替代词最多的,是“我”,有超过一千多种表达方式。
寡人、洒家、奴家、老夫、咱、俺、朕,怎么让计算机去理解不同的“我”的意思?
这里用到的是word2vec技术。
通俗的说,是把词映射成向量,转换成意义相近的字,从而找到相同情绪的不同表达。再通过深度分析,判定唐诗里的“悲”是“晨起动征铎,客行悲故乡”,是“少壮不努力”,还是“商女不知亡国恨,隔江犹唱后庭花”。
这是计算机对唐诗的情感分析。今天,我们达观可以把消费者对产品的评论进行分析:比如手机,消费者态度是满意还是不满意、是对电池不满意,还是对拍摄效果不满意?再针对产品的某个点、某个模块做深入的情感分析,从而获取消费者的态度倾向,更好的服务于消费者,这是达观在做的事。
(此段内容部分参考:)
活字印刷和古腾堡印刷让文字大范围复制和传播,“知识使人自由”。
“清明时节雨纷纷,路上行人欲断魂。借问酒家何处有,牧童遥指杏花村。”清新隽永的诗句流传至今,是得益于印刷技术的发明。
印刷术是中国古代四大发明之一,从雕版印刷到活字印刷,为知识传播创造了条件。
而真正使印刷术流行起来的,是18世纪的古腾堡印刷术,让人类具备了大规模的文字传播能力。
18世纪,欧洲笼罩在天主教的阴影之下。
当时的普通老百姓,是没有资格阅读圣经的。圣经的生产,要靠手工抄写。抄写需要大量抄书的人,培养抄书的人又需要大量的书,这就陷入了先有鸡还是先有蛋的困境。
于是圣经只能由少数识字的人,誊写在羊皮纸上,往往一本圣经册子,就需要两年的时间。因此稀少而珍贵,只有神父可以阅读传诵。于是,天主教拥有了对圣经的绝对解释权,便通过宗教去控制人的思想。
印刷术发明后,纸质本的圣经大量传播,普通人才可以阅读。人们直接和上帝对话,并恍然大悟,摆脱了天主教思想上的洗脑控制,这也间接引发了马丁路德的宗教改革,创立“新教”基督教。
约翰内斯·古腾堡
2005年,德国曾评选过历史上最具影响的德国人,古腾堡排在第八,远在爱因斯坦和铁血宰相俾斯麦之前。
古腾堡印刷术大大加速了知识的传播效率和范围,保存下了人类许多珍贵的思想、故事、诗歌。摧毁了一个文化上封闭、技术上停滞不前的旧世纪,并带来了欧洲中世纪思想启蒙,唱响了“黑暗中世纪”的挽歌,使欧洲从蒙昧走向开化,大幅度加速了人类文明的进化速度。文化的先进促进了欧洲近现代在世界的霸主地位,这一切源于文字传播的便捷。
无论对于人类总体或国家,知识的增加促进文明的发展,会给个体带来更多的自由度。而文明的发展、知识的增加,又使人对人类自身的存在意义有更深的理解。某种角度上,文明即人类个体自由意识的发展史,知识的启蒙和普及又推动文明的进程。
知识使人自由,拥有知识,就拥有了获得自由的权利。人类文明璀璨如银河,知识,即是宇宙中浩瀚的星海。人类对文字处理方式的升级迭代,恰如划破寂寂长夜的流星,在茫茫宇宙中不过转瞬即逝,却照亮整片夜空。
达观数据2019届校园招聘『达人计划』火热进行中
点击下图查看详情 以上是关于达观数据:文字的起源与文本挖掘的前世今生的主要内容,如果未能解决你的问题,请参考以下文章 文本挖掘与AI结合,达观数据让机器真正读“懂”文字 | 爱分析访谈 传统文本数据维护困难?达观数据用文本挖掘技术智能读懂文本合同