本人大一 为论文发愁
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了本人大一 为论文发愁相关的知识,希望对你有一定的参考价值。
这个寒假的作业是一篇论文 字数3000-5000
我不知道论文的格式,也不知道论文跟普通作文在题材方面有什么区别 好像要很专业的样子
我不知道改写什么。。。谁帮忙出个主意。。
想个好写的题目(附上一些材料)、说清论文的格式(最好找篇范文给我)
谢~
本文详细介绍了多变量预测控制算法及其在环境试验设备控制中的应用。由于环境试验设备的温度和湿度控制系统具有较大的时间滞后,而且系统间存在比较严重的耦合现象,用常规的PID控制不能取得满意的控制效果。针对这种系统,本文采用了多变量预测控制算法对其进行了控制仿真。
预测控制算法是一种基于系统输入输出描述的控制算法,其三项基本原理是预测模型、滚动优化、反馈校正。它选择单位阶跃响应作为它的“预测模型”。这种算法除了能简化建模过程外,还可以通过选择合适的设计参数,获得较好的控制效果和解耦效果。
本文先对环境试验设备作了简介,对控制中存在的问题进行了说明;而后对多变量预测控制算法进行了详细的推导,包括多变量自衡系统预测制算法和多变量非自衡系统预测控制算法;然后给出了系统的建模过程及相应的系统模型,在此基础上采用多变量预测控制算法对环境试验设备进行了控制仿真,并对仿真效果进行了比较。
仿真结果表明,对于和环境试验设备的温度湿度控制系统具有类似特性的多变量系统,应用多变量预测控制算法进行控制能够取得比常规PID控制更加令人满意的效果。
关键词:多变量系统;预测控制;环境试验设备
【中文摘要共100—300个字,关键词3—7个词
中文摘要和关键词占一页】
【英文全部用Times New Roman字体】
Abstract 【三号字体,加粗,居中上下空一行】
【正文小四号字体,行距为固定值20磅】
In this paper, multivariable predictive control algorithm and its application to the control of the environmental test device are introduced particularly. The temperature and humidity control system of the environmental test device is characterized as long time delay and severe coupling. Therefore, the routine PID control effect is unsatisfactory. In this case, the simulation of the temperature and humidity control of the environmental test device based on multivariable predictive control algorithm is made.
Predictive control algorithm is one of control algorithm based on description of system’s input-output. Its three basic principles are predictive model, rolling optimization and feedback correction. It chooses unit step response as its predictive model, so that the modeling process is simplified. In addition, good control and decoupling effects could be possessed by means of selection suitable parameters.
In this paper, the environmental test device is introduced briefly and the existing problems are showed. Then multivariable predictive control algorithm is presented particularly, including multivariable auto-balance system predictive control algorithm and multivariable auto-unbalance system predictive control algorithm. Next, system modeling process and corresponding system model are proposed. Further, the multivariable predictive control algorithm is applied to the temperature and humidity control system of the environmental test device. Finally, the simulation results are compared.
Results of the simulation show that multivariable predictive control algorithm could be used in those multivariable system like the temperature and humidity control system of the environmental test device and the control result would be more satisfactory than that of the routine PID control.
Keyword: Multivariable system; Predictive control; Environmental test device
【英文摘要和关键词应该是中文摘要和关键词的翻译
英文摘要和关键词占一页】
【目录范例,word自动生成】
目 录
第一章 绪 论 1
1.1 引言 1
1.2 数字图像技术的应用与发展 1
1.3 问题的提出 3
1.4 论文各章节的安排 4
第二章 数字图像处理方法与研究 5
2.1 灰度直方图 5
2.1.1 定义 5
2.1.2 直方图的性质和用途 5
2.2 几何变换 8
2.2.1 空间变换 8
2.2.2 灰度级插值 8
2.2.3 几何运算的应用 10
2.3 空间滤波增强 10
2.3.1 空间滤波原理 10
2.3.2 拉普拉斯算子 11
2.3.3 中值滤波 12
2.4 图像分割处理 13
2.4.1 直方图门限化的二值分割 14
2.4.2 直方图的最佳门限分割 14
2.4.3 区域生长 16
第三章 图像处理软件设计 18
3.1 图像处理软件开发工具的选择 18
3.1.1 BMP图像格式的结构 18
3.1.2 软件开发工具的选择 19
3.2 EAN-13码简介 20
3.2.1 EAN-13条码的结构 20
3.2.2 条码的编码方法 21
3.1 系统界面设计 22
第四章 条码图像测试 24
4.1 条码图像处理的主要方法 24
4.2 条码图像测试结果 25
第五章 总结与展望 28
参考文献 29
当先验概率相等,即 时,则
(2.33)
恰为二者均值。
以上分析可知,只要 和 已知以及 和 为正态,容易计算其最佳门限值T。
实际密度函数的参数常用拟合法来求出 参数的估值。如最小均方误差拟合估计来会计 参量,并使拟合的均方误差为最小。例如,设想理想分布的密度为正态 ,实际图像直方图为 ,用离散方式其拟合误差为
(2.34)
式中N为直方图横坐标。通常这种拟合求密度函数的几个参数很难解,只能用计算机求数值解,但若 为正态分布时只需求均值和标准差二参数即可。
2.4.3 区域生长
区域生长是一种典型的串行区域分割技术,在人工智能领域的计算机视觉研究中是一种非常重要的图像分割方法,其主要思想是将事先选中的种子点周围符合某种相似性判断的像素点集合起来以构成区域。在具体处理时,是从把一幅图像分成许多小区域开始的,这些初始小区域一般是小的邻域,甚至是单个的像素点。然后通过定义适当的区域内部隶属规则而对周围像素进行检验,对于那些符合前述隶属规则的像素点就将其合并在内,否则将其据弃,经过若干次迭代最终可形成待分割的区域。在此提到的“内部隶属规则”可根据图像的灰度特性、纹理特性以及颜色特性等多种因素来作出决断。从这段文字可以看出,区域生长成功与否的关键在于选择合适的内部隶属规则(生长准则)。
对于基于图像灰度特性的生长准则,可以用下面的流程对其区域生长过程进行表述,如图2.6所示。
图 2. 6 区域生长流程图
第三章 图像处理软件设计
3.1 图像处理软件开发工具的选择
3.1.1 BMP图像格式的结构
数字图像存储的格式有很多种,如BMP、GIF、JPEG、TIFF等,数字图像处理中最常用的当属BMP,本课题采集到的图片也是用BMP格式存储的,要对这种格式的图片进行处理,那么首先就要了解它的文件结构。
(1)BMP文件格式简介
BMP(Bitmap-File)图形文件是Windows采用的图形文件格式在Windows环境下运行的所有图象处理软件都支持BMP图像文件格式。Windows系统内部各图像绘制操作都是以BMP为基础的。Windows 3.0以前的BMP位图文件格式与显示设备有关,因此把这种BMP图像文件格式称为设备相关位图DDB(device-dependent bitmap)文件格式。Windows 3.0以后的BMP图像文件与显示设备无关,因此把这种BMP图像文件格式称为设备无关位图DIB(device-independent bitmap)格式,目的是为了让Windows能够在任何类型的显示设备上显示所存储的图像。BMP位图文件默认的文件扩展名是BMP或者bmp(有时它也会以.DIB或.RLE作扩展名)。
(2)BMP文件构成
BMP文件由位图文件头(bitmap-file header)、位图信息头(bitmap-information header)、颜色信息(color table)和图形数据四部分组成。它具有如表3.1所示的形式。
表 3. 1 BMP位图结构
位图文件的组成 结构名称 符号
位图文件头(bitmap-file header) BITMAPFILEHEADER bmfh
位图信息头(bitmap-information header) BITMAPINFOHEADER bmih
颜色信息(color table) RGBQUAD aColors[]
图形数据 BYTE aBitmapBits[]
3.1.2 软件开发工具的选择
(1)Win32 API
Microsoft Win32 API(Application Programming Interface)是Windows的应用编程接口,包括窗口信息、窗口管理函数、图形设备接口函数、系统服务函数、应用程序资源等。Win32 API是Microsoft 32位Windows操作系统的基础,所有32位Windows应用
程序都运行在Win32 API之上,其功能是由系统的动态链接库提供的。
(2)Visual C++
Visual C++是Microsoft公司出品的可视化编程产品,具有面向对象开发,与Windows API紧密结合以及丰富的技术资源和强大的辅助工具。Visual C++自诞生以来,一直是Windows环境下最主要的应用开发系统之一,Visual C++不仅是C++语言的集成开发环境,而且与Win32紧密相连,所以利用Visual C++可以完成各种各样的应用程序的开发,从底层软件直到上层直接面向用户的软件。Visual C++是一个很好的可视化编程环境,它界面友好,便于程序员操作。
Visual C++可以充分利用MFC的优势。在MFC中具有许多的基本库类,特别是MFC中的一些,利用它们可以编写出各种各样的Windows应用程序,并可节省大量重复性的工作时间,缩短应用程序的开发周期。使用MFC的基本类库,在开发应用程序时会起到事半功倍的效果。
Visual C++具有以下这些特点:
简单性:Visual C++中提供了MFC类库、ATL模板类以及AppWizard、ClassWizard等一系列的Wizard工具用于帮助用户快速的建立自己的应用程序,大大简化了应用程序的设计。使用这些技术,可以使开发者编写很少的代码或不需编写代码就可以开发一个Windows应用程序。
灵活性:Visual C++提供的开发环境可以使开发者根据自己的需要设计应用程序的界面和功能,而且,Visual C++提供了丰富的类库和方法,可以使开发者根据自己的应用特点进行选择。
可扩展性:Visual C++提供了OLE技术和ActiveX技术,这种技术可以增强应用程序的能力。使用OLE技术和ActiveX技术可以使开发者利用Visual C++中提供的各种组件、控件以及第三方开发者提供的组件来创建自己的程序,从而实现应用程序的组件化。使用这种技术可以使应用程序具有良好的可扩展性。
(3)MFC
MFC(Microsoft Foundation Class)是Microsoft公司用C++语言开发的一套基础类
库。直接利用Win32 API进行编程是比较复杂的,且Win32 API不是面向对象的。MFC封装了Win32 API的大部分内容,并提供了一个应用程序框架用于简化和标准化Windows程序的设计。MFC是Visual C++的重要组成部分,并且以最理想的方式与其集成为一体。主要包括以下各部分:Win32 API的封装、应用程序框架、OLE支持、数据库支持、通用类等。
3.2 EAN-13码简介
人们日常见到的印刷在商品包装上的条码,自本世纪70年代初期问世以来,很快得到了普及并广泛应用到工业、商业、国防、交通运输、金融、医疗卫生、邮电及办公室自动化等领域。条码按照不同的分类方法,不同的编码规则可以分成许多种,现在已知的世界上正在使用的条码就有250种之多。本章以EAN条码中的标准版EAN-13为例说明基于数字图像处理技术,对EAN条码图像识别的软件开发方法。
EAN码是国际物品编码协会在全球推广应用的商品条码,是定长的纯数字型条码,它表示的字符集为数字0~9。由前缀码、厂商识别代码、商品项目代码和校验码组成。前缀码是国际EAN组织标识各会员组织的代码,我国为690~695;厂商识别代码是EAN会员组织在EAN前缀码的基础上分配给厂商的代码;商品项目代码由厂商自行编码;校验码上为了校验前面12位或7位代码的正确性。
3.2.1 EAN-13条码的结构
EAN-13码是按照“模块组合法”进行编码的。它的符号结构由八大部分组成:左侧空白区、 起始符、左侧数据符、中间分隔符、右侧数据符、校验符、终止符及右侧空白区,见表3.2。尺寸:37.29mm ×26.26mm ;条码:31.35mm ;起始符/分隔符/终止符:24.50mm ;放大系数取值范围是0.80~2.00;间隔为0.05。
表 3. 2 EAN-13码结构
左侧
空白区 起始符 左侧
数据符 中间
间隔符 右侧
数据符 校验符 终止符
右侧
空白区
9个
模块 3个
模块 42个
模块 5个
模块 35个
模块 7个
模块 3个
模块 9个
模块
EAN-13码所表示的代码由13位数字组成,其结构如下:
结构一:
X13X12X11X10X9X8X7X6X5X4X3X2X1
其中:X13~X11为表示国家或地区代码的前缀码;X10~X7为制造厂商代码;X6~X2为商品的代码;X1为校验码。
结构二:
X13X12X11X10X9X8X7X6X5X4X3X2X1
其中:X13~X11为表示国家或地区代码的前缀码;X10~X6为制造厂商代码;X5~X2为商品的代码;X1为校验码。
在我国,当X13X12X11为690、691时其代码结构同结构一;当X13X12X11为692
时其代码结构为同结构二。
EAN条码的编码规则,见表3.3:
起始符:101;中间分隔符:01010;终止符:101。
A、B、C中的“0”和“1”分别表示具有一个模块宽度的“空”和“条”。
表 3. 3 EAN条码的编码规则
数据符 左侧
数据符 右侧
数据符
A B C
0 0001101 0100111 1110010
1 0011001 0110011 1100110
2 0010011 0011011 1101100
3 011101 0100001 1000010
4 0100011 0011101 1011100
5 0110001 0111001 1001110
6 0101111 000101 1010000
7 0111011 0010001 1000100
8 0110111 0001001 1001000
9 0001011 0010111 1110100
3.2.2 条码的编码方法
条码的编码方法是指条码中条空的编码规则以及二进制的逻辑表示的设置。众所周知,计算机设备只能识读二进制数据(数据只有“0”和“1”两种逻辑表示),条码符号作为一种为计算机信息处理而提供的光电扫描信息图形符号,也应满足计算机二进制的要求。条码的编码方法就是通过设计条码中条与空的排列组合来表示不同的二进制数据。一般来说,条码的编码有两种:模块组合和宽度调节法。
模块组合法是指条码符号中,条与空是由标准宽度的模块组合而成。一个标准宽度的条表示二进制的“1”而一个标准的空模块表示二进制的“0”。商品条码模块的标准宽度是0.33mm ,它的一个字符由两个条和两个空构成,每一个条或空由1~4个标准宽度模块组成。
宽度调节法是指条码中,条与空的宽窄设置不同,用宽单元表示二进制的“1” ,而用窄单元表示二进制的“0”,宽窄单元之比一般控制在2~3之间。
3.1 系统界面设计
本文图像处理软件基本功能包括读取图像、保存图像、对图像进行处理等。图3.1所示为本图像处理软件的界面。
图 3. 1 软件主界面
软件设计流程图如图3.2所示。
图 3. 2 程序设计流程图
第四章 条码图像测试
4.1 条码图像处理的主要方法
(1)256色位图转换成灰度图
运用点处理中的灰度处理为实现数字图像的阈值变换提供前提条件。要将256色位图转变为灰度图,首先必须计算每种颜色对应的灰度值。灰度与RGB颜色的对应关系如下:
Y=0.299R+0.587G+0.114B (4.1)
这样,按照上式我们可以方便地将256色调色板转换成为灰度调色板。由于灰度图调色板一般是按照灰度逐渐上升循序排列的,因此我们还必须将图像每个像素值(即调色板颜色的索引值)进行调整。实际编程中只要定义一个颜色值到灰度值的映射表bMap[256](长为256的一维数组,保存256色调色板中各个颜色对应的灰度值),将每个像素值p(即原256色调色板中颜色索引值)替换成bMap[p]。
(2)灰度的阈值变换
利用点运算中的阈值变换理论将灰度图像变为二值图像,为图像分析做准备工作。灰度的阈值变换可以将一幅灰度图像转变为黑白二值图像。它的操作是先由用户指定一个阈值,如果图像中某像素的灰度值小于该阈值,则将该像素的灰度值设置为0,否则灰度值设置为255。
(3)中值滤波
运用变换域法中的空域滤波法对图像进行降噪处理。中值滤波是一种非线性的信号
处理方法,与其对应的滤波器当然也是一种非线性的滤波器。中值滤波一般采用一个含有奇数个点的滑动窗口,将窗口中各点灰度值的中值来替代指定点(一般是窗口的中心点)的灰度值。对于奇数个元素,中值是指按大小排序后,中间的数值,对于偶数个元素,中值是指排序后中间两个元素灰度值的平均值。
(4)垂直投影
利用图像分析中的垂直投影法实现对二值图像的重建,为条码识别提供前提条件。垂直投影是利用投影法对黑白二值图像进行变换。变换后的图像中黑色线条的高度代表了该列上黑色点的个数。
(5)几何运算
几何运算可以改变图像中各物体之间的空间关系。几何运算的一个重要应用是消除摄像机导致的数字图像的几何畸变。当需要从数字图像中得到定量的空间测量数据时,几何校正被证明是十分重要的。另外,一些图像系统使用非矩形的像素坐标。在用普通的显示设备观察这些图像时,必须先对它们进行校直,也就是说,将其转换为矩形像素坐标。
4.2 条码图像测试结果
本软件的处理对象为EAN-13码的256色BMP位图,应用数字图像处理技术中的灰度处理、阈值分割、空域滤波、区域生长、投影等方法,对有噪声的条码图像进行了相应处理,其结果如下:
图4. 1 原始条码图 图4. 2 灰度窗口变换
图4. 3 原条码直方图 图4. 4 灰度窗口变换直方图
图4. 5灰度直方图规定化界面 图4. 6灰度直方图规定化直方图
图4. 7 中值滤波的界面
图4. 8 区域生长 图4. 9 阈值面积消除
图4. 10 垂直投影
从以上处理结果可以看出,对原始条码图像进行灰度变换、中值滤波、二值化以及小面积阈值消除后得到条码的投影图像,下一步就可以通过图像模式识别的方法将条码读取出来,该部分工作还有待进一步研究。
第五章 总结与展望
数字图像处理技术起源于20世纪20年代,当时由于受技术手段的限制,使图像处理技术发展缓慢。直到第三代计算机问世以后,数字图像处理才得到迅速的发展并得到普遍应用。今天,已经几乎不存在与数字图像处理无关的技术领域。
本论文主要研究了数字图像处理的相关知识,然后通过Visual C++这一编程工具来实现图像处理算法;对文中所提到的各种算法都进行了处理,并得出结论。所做工作如下:
(1)运用点处理法中的灰度处理为实现数字图像的阈值变换提供前提条件。
(2)运用变换域法中的空域滤波法对图像进行降噪处理。
(3)利用点运算中的阈值变换理论将灰度图像变为二值图像,为图像分析做准备工作。
(4)利用图像分析中的垂直投影法实现对二值图像的重建,为条码识别提供前提条件。
在论文的最后一章,给出了各种算法处理的结果。结果表明通过数字图像处理可以把有噪声的条码处理成无噪声的条码。
数字图像处理技术的应用领域多种多样,不仅可以用在像本文的图像处理方面,还可以用于模式识别,还有机器视觉等方面。近年来在形态学和拓扑学基础上发展起来的图像处理方法,使图像处理的领域出现了新的局面,相信在未来图像处理的应用将会更加广泛。
参考文献
[1] 阮秋琦.数字图像处理学[M].北京:电子工业出版社,2001.
[2] 黄贤武,王加俊,李家华.数字图像处理与压缩编码技术[M].成都:科技大学出版社,2000.
[3] 容观澳.计算机图像处理[M].北京:清华大学出版社,2000.
[4] 胡学钢.数据结构-算法设计指导[M].北京:清华大学出版社,1999.
[5] 黄维通.Visual C++面向对象与可视化程序设计[M].北京:清华大学出版社,2001.
[6] 夏良正.数字图像处理[M].南京:东南大学出版社,1999.
[7] 费振原.条码技术及应用[M].上海:上海科学技术文献出版社,1992.
[8] 李金哲.条形码自动识别技术[M].北京:国防工业出版社,1991.
[9] 何斌.Visual C++数字图像处理[M].北京:人民邮电出版社,2001.
[10] 李长江. C++使用手册[M].北京:电子工业出版社,1995.
[11] 席庆,张春林. Visual C++ 6.0.实用编程技术[M].北京:中国水利水电出版社,1999.
[12] 胡学钢.数据结构-算法设计指导[M].北京:清华大学出版社,1999.
[13] Kenneth R.Castleman著,朱志刚等译.数字图像处理[M].北京:电子工业出版社,1998.
[14] Davis. Chapman.Visual C++ 6.0[M].北京:清华大学出版社,1999.
[15] Richard C.Leinecker.Visual C++ 5 Power Toolkit[M].北京:机械工业出版社,1999. 参考技术A 哈哈 我也是大一的 支持哈 为什么要有作业呀
#夏日挑战赛#ELT.ZIP啃论文俱乐部——学术科研方法论沉淀辑
- 本文出自
ELT.ZIP
团队,ELT<=>Elite(精英),.ZIP为压缩格式,ELT.ZIP即压缩精英。 -
成员:
- 上海工程技术大学大二学生
- 合肥师范学院大二学生
- 清华大学大二学生
- 成都信息工程大学大一学生
- 黑龙江大学大一学生
- 山东大学大三学生
- 华南理工大学大一学生
- 无锡一中高三学生
- 沈阳农业大学大二学生
- 我们是来自
9个地方
的同学,我们在OpenHarmony成长计划啃论文俱乐部
里,与华为、软通动力、润和软件、拓维信息、深开鸿
等公司一起,学习和研究操作系统技术
…
@[toc]
【往期回顾】
① 2月23日 《老子到此一游系列》之 老子为什么是老子 —— ++综述视角解读压缩编码++
② 3月11日 《老子到此一游系列》之 老子带你看懂这些风景 —— ++多维探秘通用无损压缩++
③ 3月25日 《老子到此一游系列》之 老子见证的沧海桑田 —— ++轻翻那些永垂不朽的诗篇++
④ 4月4日 《老子到此一游系列》之 老子游玩了一条河 —— ++细数生活中的压缩点滴++
⑤ 4月18日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——一文穿透多媒体过往前沿++
⑥ 4月18日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——这些小风景你不应该错过++
⑦ 4月18日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——浅析稀疏表示医学图像++
⑧ 4月29日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——计算机视觉数据压缩应用++
⑨ 4月29日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——点燃主缓存压缩技术火花++
⑩ 4月29日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——即刻征服3D网格压缩编码++
⑪ 5月10日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——云计算数据压缩方案++
⑫ 5月10日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——大数据框架性能优化系统++
⑬ 5月10日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——物联网摇摆门趋势算法++
⑭ 5月22日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——电子设备软件更新压缩++
⑮ 5月22日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——人工智能短字符串压缩++
⑯ 5月22日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——多层存储分级数据压缩++
⑰ 6月3日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——快速随机访问字符串压缩++
⑱ 6月3日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——数据高通量无损压缩方案++
⑲ 6月13日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部—gpu上高效无损压缩浮点数++
⑳ 6月13日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部—一种深度神经网压缩算法++
㉑ 6月13日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部—硬件加速的快速无损压缩++
㉒ 6月24日 ++#夏日挑战赛#【ELT.ZIP】啃论文俱乐部—数据密集型应用内存压缩++
㉓ 6月24日 ++#夏日挑战赛#【ELT.ZIP】啃论文俱乐部---见证文件压缩系统EROFS++
引言
- 论文不论是在大家的刻板印象中,抑或是实际地阅读后都会给大家带来一种感觉。
所涉及的知识量是巨大的,对背后原理的理解是具有不小挑战的,其中的公式推导是极度烧脑的。
- 基于前面几点,论文确实是个
硬骨头
,因此用啃
这个字来刻画论文阅读,是很恰当的。但是对于硬骨头,大家也都啃过真的“硬骨头”,其中的精华可能暗藏在骨缝之中,需要你对Main body
的仔细阅读来发现与获取;如果莽撞的硬来,稍有不慎就会硌到牙,比如说你开始和数学公式斗争。同时,也可能会遇到有大片的肉块密布的情况,也就是这篇文章的摘要部分的信息量很大
,有许多是有价值的信息
,但是每个可能都需要展开查询。对于这种久旱逢甘霖
的情形,有人可能就会欢欣鼓舞的大快朵颐
,大家就开始疯狂查询,一会几十个页面就都打开了,但稍不留神就可能被噎住,短时间被巨大的信息量冲击可能就会有种眼花缭乱
的感觉,稍有不慎就会偏离方向。综上所述,无论是因为啃不动论文,或是啃论文的方法不当,都会让我们陷入卷帙浩繁
的文献汪洋,迷失了方向,迷失了自我。那么接下来我们将给出两种论文阅读的途径,一种是我们团体参与啃论文俱乐部
走到今天运用的方法,另一种是清华彭明辉
教授的方法。 - 上图我们就详细地给出了俱乐部的方法与彭教授的方法,我们基于彭教授的方法对我们俱乐部的方法进行了相应的对比。下文我们就将上图的部分信息进行一定程度的展开补充。
1. 目标导向
- 这两种方法的最终目标导向是不同的。
彭教授方法的目标导向:
根据已有的学术成果去创造出新的知识,力图实现理论层面的突破。
俱乐部啃论文的目标导向:
在已有的文献中探寻是否有更好的技术可以替换现有的技术, 力图实现代码层面的应用。
2. 能力导向
- 这一层面我们啃论文俱乐部与彭教授的要求是趋同的。
彭教授方法:
俱乐部方法:
数据检索的能力
你到底要用什么样的关键词和查所程序
去保证你已经找出所有相关的文献?这是第一个大的挑战。
资料筛选的能力
你如何可以只读论文的题目、摘要、简介和结论
,而还没有完全看懂内文,就准确地判断出这篇论文中是否有值得你进一步参考的内容,以便快速地把需要仔细读完的论文从数百篇
降低到几篇
?
期刊论文的阅读能力
自己从无组织的知识中检索、筛选、组织
知识的能力。
期刊论文的分析能力
对一切既有进行精确批判的能力一个严格训练过的合格硕士,他做事的时候应该是不需要有人在背后替他做检证,他自己就应该要有能力分析自己的优、缺点,主动向上级或平行单位要求支持。其实,至少要能够完成这个能力,才勉强可以说你是有「独立自主的判断能力」。
创新的能力
硕士毕业生却应该要有能力创造知识。
3. 论文阅读
- 这一部分彭教授的方法构建对一个领域的认知时是基于大量的文献,然后以找到三个问题的答案为目的去阅读梳理该领域的技术的,我们俱乐部是采用
先阅读综述
的方式可以快速的在综述中完成这一部分,当然在实在找不到相关综述的情况下,我们可以采用彭教授的梳理方式。但与此同时我们可以在阅读综述时,寻找彭教授所说的三个问题的答案,这样效率会更加高。
彭教授方法:
俱乐部方法:
Part Ⅰ
摘要/介绍 部分
- 必须要学会只看
Abstract
和Introduction
便可以判断出这篇论文的重点和你的研究有没有直接关连,从而决定要不要把它给读完。(以后不管是做事或做学术研究,都比别人有能力从更广泛的文献中挑出最值得参考的资料。)
-
功能 :
- 问题背景起源
- 前人已有主要贡献
- 前人未解问题
- 此背景下本论文的想解决的问题及重要性。
-
操作步骤:
- 目的:初学学生,了解以前研究的概况。
- 题目可能相关的论文收集个 30~40 篇 <=> 读综述,更加简便。
- 只读 Abstract 和 Introduction,不读 Main Body(本文),必要时参考 examples 和 Conclusions。
- 直到你能回答下面这三个问题:(综述可以给你答案)
- 在这领域内最常被引述的方法有哪些?(问题A)[技术地图]
- 这些方法可以分成哪些主要派别?(问题B)[技术地图]
- 每个派别的主要特色(含优点和缺点)是什么?(问题C)
- 回答不了(问题C)
- step 1: 根据(问题A)的答案,找齐领域内最常被引述的论文
- step 2: 根据(问题B)的答案分成派别,每个派别按日期先后次序排好。
- step 3: 只重新读一派的 Abstract 和Introduction
- 必要时简略参考内文,目的读懂 Introduction 内与这派有关的陈述,而不需要真的看懂所有内文
- 照日期先后读,读的时候只企图回答一个问题:这一派的创意与主要诉求是什么?
- 这样,你逐派逐派地把每一派的 Abstract 和 Introduction 给读完,总结出这一派主要的诉求、方法特色和优点(每一篇论文都会说出自己的优点,仔细读就不会漏掉)。
- 其次,你再把这些论文拿出来,但是只读 Introduction,认真回答下述问题:「每篇论文对其它派别有什么批评?」然后你把读到的重点逐一记录到各派别的「缺点」栏内。
- 通过以上程序,你就应该可以掌握到(问题A)、(问题B)、和(问题C)三个问题的答案。这时你对该领域内主要方法、文献之间的关系算是相当熟捻了,但是你还是只仔细读完 Abstract和 Introduction 而已,内文则只是笼统读过。
硕士生必须学会选择性的阅读,而且必须锻炼出他选择时的准确度以及选择的速度,不要浪费时间在学用不着的细节知识!多吸收「点子」比较重要,而不是细部的知识。「这对俱乐部同样适用」
Part Ⅱ
修正关键词,筛选论文
- 目前已经掌握此领域主要论文,测试
keywords
不恰当与否,修正 keywords 再搜寻,补齐此领域的主要文献,原来 30~40 篇论文中关系较远的论文筛选掉,只保留 20 篇左右确定跟关系较近的文献。如果有把握,可以删除一两个你不想用的派别(要有充分的理由),只保留两、三个派别(也要有充分的理由)继续做完以下工作。
Part Ⅲ
利用(问题C)每个派别的主要特色(含优点和缺点)是什么? 的答案,再进一步回答一个问题:
- 这个领域内大家认为重要的关键问题有哪些?
- 有哪些特性是大家重视的优点?有哪些特性是大家在意的缺点?
- 这些优点与缺点通常在哪些应用场合时会比较被重视?在哪些应用场合时比较不会被重视?
- 目的:整理出这个领域(研究题目)主要应用场合,以及这些应用场合上该注意的事项。【技术地图】
- 最后,在你真正开始念论文的 main body 之前
- 你应该要先根据 :
- (问题A)在这领域内最常被引述的方法有哪些?和(问题C)每个派别的主要特色(优点和缺点)是什么?的答案。
- 把各派别内的论文整理在同一个档案夹里,并照时间先后次序排好。
- 然后依照这些派别与你的研究方向的关系远近,一个派别一个派别地逐一把各派一次念完一派的 main bodies。
对于俱乐部我们可能是锚定了具体的应用场景后根据场景进行 Main body 的阅读而不是上述过程。
Part Ⅳ
阅读主体(也对应三个问题)-(多要结合文中图表去理解)
a. 这篇论文的主要假设是什么(在什么条件下它是有效的),并且评估一下这些假设在现现条 件下有多容易(或多难)成立。愈难成立的假设,愈不好用,参考价值也愈低。
b. 在这些假设下,这篇论文主要有什么好处。
c. 这些好处主要表现在哪些公式的哪些项目的简化上。
至于整篇论文详细的推导过程,你不需要懂。除了三、五个关键的公式(最后在应用上要使用 的公式,你可以从这里评估出这个方法使用上的 方便程度或计算效率*,以及在非理想情境下这些公式使用起来的可靠度或稳定性)之外,其它公式都不懂也没关系,公式之间的恒等式推导过程可以完全略过去。假如你要看公式,重点是看公式推导过程中引入的假设条件,而不是恒等式的转换。
目的:这一派的主要发展过程,主要假设、主要理论依据、以及主要的成果做一个完整的整理。
-
根据(问题D)的答案以及这一派的主要假设,进一步回答下一个问题:
这一派主要的缺点有哪些。【我们团队目前觉得这一点可能不必要】 -
最后,根据(A)、(B)、(C)、(D)的答案综合整理出:这一派最适合什么时候使用,最不适合什么场合使用。
- 一定要同时有方法特性表与应用场合特性分析表放在 一起后,才能判断一个方法的适用性。
4. 阅读论文的原则
- 读论文带着问题读,只图回答你要回答的问题。
- 选择性阅读,一定要逐渐由粗而细地一层一层去了解。上面所规划的读论文的次序,就是由粗而细,每读完一轮,你对知识就增加一层。根据这一层知识就可以问出下一层更细致的问题,再根据这些更细致的问题去重读,就可以理解到更多的内容。因此,一定是一整批一起读懂到某个层次,而不是逐篇逐篇地整篇一次读懂。
- 第一轮读完后,可以根据第一轮所获得的知识判断出哪些论文与你的议题不相关,不相关的就不需要再读下去了。这样才可以从广泛的论文里逐层准确地筛选出你真正非懂不可的部分。不要读不会用到的东西,白费的力气必须被极小化!其实,绝大部分论文都只需要了解它的主要观念(这往往比较容易),而不需要了解它的详细推导过程(这反而比较费时)。
- 其次,一整批一起读还有一个好处:同一派的观念,有的作者说得较易懂,有的说得不清楚。整批读略过一次之后,就可以规划出一个你以为比较容易懂的阅读次序,而不要硬碰硬地在那里撞墙壁。你可以从甲论文帮你弄懂以论文的一个段落,没人说读懂甲论文只能靠甲论文的信息。所以,整批阅读很像在玩跳棋,你要去规划出你自己阅读时的「最省力路径」。
5. 办法实操
- 现在,假设我们已经在前文方法的基础上留下了一篇合适文献,如何对其进行
合理有效地解析
是即将面临的关键问题。为方便起见,接下来以我们曾经捧读过的《FSST: Fast Random Access String Compression》一文为例,对彭明辉教授的实行办法作一个上手实操,回顾优化自身的同时更供参考。
一、从概要判断关联性
- 首当其冲的 Abstract 说明全文的
主要贡献、方法特色与主要内容
:
- 主要贡献:提出了一种叫做“快速静态符号表”的轻量级字符串压缩方案
- 方法特色:在文本数据上的压缩、解压速度与 LZ4 等方法
相似或更好
,压缩比更高 - 主要内容:支持
随机访问
单个压缩后的字符串,可以延迟对数据的解压和查询等
- 至此,可能还无法确切了解“静态符号表”的含义,但它的特点价值却足够高(LZ4 以极快的
压、解压速度
而著称),这是其亮点,因而足以有理由支撑我们继续阅读下去。
- Introduction 这一部分信息量较大,是对全文组织内容的串联,应当细致入微地多过几遍。仅以其中截取的片段为实例:首先介绍了字符串在当下的
广泛背景
—— 字符串经常在数据库
中被用作各种数据的万能表示类型。再引出现实问题
—— 但字符串的唯一性与数据库中字符串通常只有百十 byte 大小的特点,致使传统的、依靠压缩多次完全重复字符串方式实现压缩的字典压缩算法无法很好地发挥效用
,这要求字符串的输入大小需要达到几 kb 以上时才能满足,二者之间由此产生了矛盾
,并举例 LZ4 算法进行了粗略论证。其次,传统的按块排序的通用字符串压缩算法也无法很好地满足数据库对单个字符串属性实现随机访问的需求。 - 另外,我们还会注意作者多次强调到这样一个核心技术实现的字眼 —— AVX512 SIMD。如果曾经了解过,会知道它是由 Intel 所推出的新一代独有加速指令集架构,这时,去搜索引擎具体深入下再合适不过了。不难获取到这样一些信息:Intel 平台独占、流行于 HPC、能耗比较高……由此,可初步推断 FSST 或许
不会具备可观
的通用性。 - 至此,开头所述选项大致都已找到了答案可补充,同时完成了判断关联性的目的,并可结合自身研究方向的需求定为“中等”级别。
二、着重主体创新与优缺点
- 在阐述 FSST 的实现过程时,作者首先指明了“字符串”这样一种数据类型的特点:尽管每个单独的字符串可能很短、几乎没有冗余,但一个列的字符串通常有共同的子字符串,如下图 URL 类数据集所示:
- 所以,FSST 的创新点就在,其识别经常出现的子字符串符号,并将它们替换为
短的、固定大小的
代码。再者,符号表在解压过程中保持静态,这意味着在解压某个单个字符串的时候不必依赖
同一个压缩块中的其他关联字符串;但 LZ4 一类的算法会在压缩与解压期间修改字符串内部状态。 - 与此同时,在正文中我们不乏也会看到上图类似的内容。其实,这即是彭明辉教授所述的“恒等式转换”,如果浪费时间在研究恒等式是如何推导出来的方向上,是意义不大的。重要的是关注公式推导过程中引入的
假设条件
,而非恒等式转换。 - 后文相关内容可参考【ELT.ZIP】OpenHarmony啃论文俱乐部——快速随机访问字符串压缩
三、归纳问题、技术、场景
- 这里的方法与应用场合特性表即对应我们俱乐部常常所强调的
问题、技术、场景
。问题,描述了对象的什么结构的什么层面存在的不足或是缺陷,导致无法适应于当下的需求;技术,为了满足这样一种需求而产生,具备其独有的优势;场景,在何时、何种场合下会出现这种需求,需求量多还是少,技术解决需求量的多少决定了论文的含金量。 - 结合上文,不难分析出本文的问题是
现有的压缩算法无法很好地压缩字符串
,技术是FSST快速静态符号表
方案,场景是数据库系统、信息检索、网络云存储、文本分析
等。
- 更有意义的是,这样一个过程把突破瓶颈所需的创意简化成了一种有迹可循的工作,把冷酷无情的科研演化成了轻松愉快的奋斗日记。
以上是关于本人大一 为论文发愁的主要内容,如果未能解决你的问题,请参考以下文章
ELT.ZIPOpenHarmony啃论文俱乐部——计算机视觉数据压缩应用
清华大一Python作业太难上热榜!手撸AI算法,网友:离本科毕设只差一篇万字论文...
#夏日挑战赛#ELT.ZIP啃论文俱乐部——学术科研方法论沉淀辑