数据采集的主要类型都有哪些

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据采集的主要类型都有哪些相关的知识,希望对你有一定的参考价值。

    固定式数据采集(如RFID读写器,电子标签,条码枪)

    移动式数据采集终端(如配带WIFI/4G的RFID手持终端,带有RFID读写模块,条码引擎,指纹等数据采集模块)

参考技术A 采集的类型?楼主说的是采集的方法吗?有很多种,比如说像分布式网络爬虫工具,如 Nutch。Java 网络爬虫工具,如 WebCollector。Python的话如 Scrap。 参考技术B 软件系统的数据采集方式,有以下几种:
第一种:软件接口方式
通过各软件厂商开放数据接口,实现不同软件数据的互联互通。这是目前最为常见的一种数据对接方式。
优势:接口对接方式的数据可靠性与价值较高,一般不存在数据重复的情况;数据可通过接口实时传输,满足数据实时应用要求。
缺点:①接口开发费用高;②需协调多个软件厂商,工作量大且容易烂尾;③可扩展性不高,如:由于新业务需要各软件系统开发出新的业务模块,其和大数据平台之间的数据接口也需做相应修改和变动,甚至要推翻以前的所有数据接口编码,工作量大、耗时长。
第二种:软件机器人采集
软件机器人是目前比较前沿的软件数据对接技术,即能采集客户端软件数据,也能采集网站网站中的软件数据。
常见的是博为小帮软件机器人,产品设计原则为“所见即所得”,即不需要软件厂商配合的情况下,采集软件界面上的数据,输出的结果是结构化的数据库或者excel表。
如果只需要界面上的业务数据,或者遇到软件厂商不配合/倒闭、数据库分析困难的情况下, 利用软件机器人采集数据更可取,尤其是详情页数据的采集功能比较有特色。
软件机器人的技术特点如下:
①无需原软件厂商配合;②兼容性强,可采集汇聚Windows平台各种软件系统数据;③输出结构化数据;④即配即用,实施周期短、简单高效;⑤配置简单,不用编程,每个人都可以DIY一个软件机器人;⑥价格相对人工和接口,降低不少。
缺点:采集软件数据的实时性有一定限制。

第三种:网络爬虫
网络爬虫是模拟客户端发生网络请求,接收请求响应,一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
爬虫采集数据的缺点:①输出数据多为非结构化数据;②只能采集网站数据,容易受网站反爬机制影响;③使用人群狭窄,需要有专业编程知识才能玩转。

第四种:开放数据库方式
数据的采集融合,开放数据库是最直接的一种方式。
每个软件系统有各自的数据库,而同类型的数据库之间数据融合是比较方便的:
优势:开放数据库方式可以直接从目标数据库中获取需要的数据,准确性高,实时性也有保证,是最直接、便捷的一种方式。
缺点:开放数据库方式也需要协调各软件厂商开放数据库,这需要看对方的意愿,一般出于安全考虑,不会开放;一个平台如果同时连接多个软件厂商的数据库,并实时获取数据,这对平台性能也是巨大挑战。
4种数据采集方式,各有优势,适合不同的应用场景。

ORACLE中都有哪些数据类型

Oracle中的数据类型有:字符型、数字型、日期型等。具体介绍如下:
1、字符型:char(n):用于标识固定长度的字符串。
  当实际数据不足定义长度时,使用空格补全右边不足位。varchar(n):可变字符串类型。
  为SQL标准规定的,数据库必须实现的数据据类型。可以存储空字符串。

  varchar2(n):可变字符串类型,是oracle在varchar的基础上自行定义的可变长度字符串
类型。当做为列类型使用时,最大长度可被定义为4000;当做为变量类型使用时,长度
可被定义为32767。不可以存储空字符串。
2、数值型:可用于存储整数、浮点数。
  number(m,n):m表示有效数字的总位数(最大为38位),n表示小 数位数。
3、日期时间型:
  date:包含Year(年)、Month(月) 、Day(天)、Hour(时)、Minutes(分)、Second(秒)
  说明:(yyyy表示4位年分;mm表示月份;dd表示天;hh表示时;mi表示分;ss表示秒)
4、大对象类型:lob:用于存储大对象类型。例如:文本信息长度超过4000、二进制文件等。最大容量为4GB。
  lob分类:clob:用于存储大型文本数据。(例如:备注信息)
  blob:用于存储二进制数据。(例如:图片文件)
  bfile:作为独立文件存在的二进制数据。
5、特殊数据:
  null与空字符串:null与空字符串,都要用is null或is not null进行比较。
单引号:想将单引号做为字符中使用,请通过单引号进行转义。
6、注意:oracle中,没有布尔类型,可利用字符串或数值(1/0)表示
参考技术A ORACLE的数据类型 -- ORACLE的数据类型
常用的数据库字段类型如下:
字段类型 中文说明 限制条件 其它说明
CHAR 固定长度字符串 最大长度2000 bytes
VARCHAR2 可变长度的字符串 最大长度4000 bytes 可做索引的最大长度749
NCHAR 根据字符集而定的固定长度字符串 最大长度2000 bytes
NVARCHAR2 根据字符集而定的可变长度字符串 最大长度4000 bytes
DATE 日期(日-月-年) DD-MM-YY(HH-MI-SS) 经过严格测试,无千虫问题
LONG 超长字符串 最大长度2G(231-1) 足够存储大部头著作
RAW 固定长度的二进制数据 最大长度2000 bytes 可存放多媒体图象声音等
LONG RAW 可变长度的二进制数据 最大长度2G 同上
BLOB 二进制数据 最大长度4G
CLOB 字符数据 最大长度4G
NCLOB 根据字符集而定的字符数据 最大长度4G
BFILE 存放在数据库外的二进制数据 最大长度4G
ROWID 数据表中记录的唯一行号 10 bytes ********.****.****格式,*为0或1
NROWID 二进制数据表中记录的唯一行号 最大长度4000 bytes
NUMBER(P,S) 数字类型 P为整数位,S为小数位
DECIMAL(P,S) 数字类型 P为整数位,S为小数位
INTEGER 整数类型 小的整数
FLOAT 浮点数类型 NUMBER(38),双精度
REAL 实数类型 NUMBER(63),精度更高

数据类型 参数 描述
char(n) n=1 to 2000字节 定长字符串,n字节长,如果不指定长度,缺省为1个字节长(一个汉字为2字节)

varchar2(n) n=1 to 4000字节 可变长的字符串,具体定义时指明最大长度n,这种数据类型可以放数字、字母以及ASCII码字符集(或者EBCDIC等数据库系统接受的字符集标准)中的所有符号。
如果数据长度没有达到最大值n,Oracle 8i会根据数据大小自动调节字段长度,如果你的数据前后有空格,Oracle 8i会自动将其删去。VARCHAR2是最常用的数据类型。可做索引的最大长度3209。

number(m,n) m=1 to 38
n=-84 to 127 可变长的数值列,允许0、正值及负值,m是所有有效数字的位数,n是小数点以后的位数。
如:number(5,2),则这个字段的最大值是99,999,如果数值超出了位数限制就会被截取多余的位数。
如:number(5,2),但在一行数据中的这个字段输入575.316,则真正保存到字段中的数值是575.32。
如:number(3,0),输入575.316,真正保存的数据是575。

date 无 从公元前4712年1月1日到公元4712年12月31日的所有合法日期,Oracle 8i其实在内部是按7个字节来保存日期数据,在定义中还包括小时、分、秒。
缺省格式为DD-MON-YY,如07-11月-00 表示2000年11月7日。

long 无 可变长字符列,最大长度限制是2GB,用于不需要作字符串搜索的长串数据,如果要进行字符搜索就要用varchar2类型。long是一种较老的数据类型,将来会逐渐被BLOB、CLOB、NCLOB等大的对象数据类型所取代。

raw(n) n=1 to 2000 可变长二进制数据,在具体定义字段的时候必须指明最大长度n,Oracle 8i用这种格式来保存较小的图形文件或带格式的文本文件,如Miceosoft Word文档。
raw是一种较老的数据类型,将来会逐渐被BLOB、CLOB、NCLOB等大的对象数据类型所取代。

long raw 无 可变长二进制数据,最大长度是2GB。Oracle 8i用这种格式来保存较大的图形文件或带格式的文本文件,如Miceosoft Word文档,以及音频、视频等非文本文件。
在同一张表中不能同时有long类型和long raw类型,long raw也是一种较老的数据类型,将来会逐渐被BLOB、CLOB、NCLOB等大的对象数据类型所取代。

blob /clob /nclob 无 三种大型对象(LOB),用来保存较大的图形文件或带格式的文本文件,如Miceosoft Word文档,以及音频、视频等非文本文件,最大长度是4GB。
LOB有几种类型,取决于你使用的字节的类型,Oracle 8i实实在在地将这些数据存储在数据库内部保存。
可以执行读取、存储、写入等特殊操作。

bfile 无 在数据库外部保存的大型二进制对象文件,最大长度是4GB。
这种外部的LOB类型,通过数据库记录变化情况,但是数据的具体保存是在数据库外部进行的。
Oracle 8i可以读取、查询BFILE,但是不能写入。
大小由操作系统决定。
参考技术B 数据类型大约分为:character, number, date, LOB, 和RAW等类型。虽然ORACLE8i也允许你自定义数据类型,但是它们是最基Character 数据类型
Character 数据类型用来存储字母数字型数据。当你在oracle 中定义一个character 数据时,通常需要制定字段的长度,它是该字段的最大长度。ORACLE提供以下几种character 数据类型:

CHAR() CHAR数据类型是一种有固定长度和最大长度的字符串。存储在数据类型为CHAR字段中的数据将以空格的形式补到最大长度。长度定义在1——2000字节之间。

当你创建一个CHAR型字段,数据库将保证在这个字段中的所有数据是定义长度,如果某个数据比定义长度短,那么将用空格在数据的右边补到定义长度。如果长度大于定义长度将会触发错误信息。

VARCHAR() varchar型数据是varchar2型数据的快照。

VARCHAR2() varchar2数据类型是一种可变长度的、有最大长度的字母数字型数据。Varchar2类型的字段长度可以达到4000字节,Varchar2类型的变量长度可以达到32676字节。

一个空的varchar2(2000)字段和一个空的varchar2(2)字段所占用的空间是一样的。

NCHAR() 和 NVARCHAR2() NCHAR() 和 NVARCHAR2()数据类型分别与CHAR() 和 VARCHAR2()类型是相同的,只不过它们用来存储NLS(National Language Support)数据。

LONG LONG 数据类型是一个遗留下来的而且在将来不会被支持的数据类型。它将被LOB(Large Object)数据类型所代替。

比较规则 Varchar2和char数据类型根据尾部的空格有不同的比较规则。对Char型数据,尾部的空格将被忽略掉,对于Varchar2型数据尾部带空格的数据排序比没有空格的要大些。比如:

Char 型数据: ‘YO’=‘YO ’

Varchar2型数据: ‘YO’<’YO ’

Numberic 数据类型

Numberic 数据类型用来存储负的和正的整数、分数和浮点型数据,范围在-1*10-103 和9.999…99*10125之间,有38位的精确度。标识一个数据超出这个范围时就会出错。
本的数据类型。
参考技术C VARCHAR2(size) 可变长度的字符串,其最大长度为size个字节;size的最大值是4000,而最小值是1;你必须指定一个VARCHAR2的size;
NVARCHAR2(size) 可变长度的字符串,依据所选的国家字符集,其最大长度为size个字符或字节;size的最大值取决于储存每个字符所需的字节数,其上限为4000;你必须指定一个NVARCHAR2的size;
NUMBER(p,s) 精度为p并且数值范围为s的数值;精度p的范围从1到38;数值范围s的范围是从-84到127;
例如:NUMBER(5,2) 表示整数部分最大3位,小数部分为2位;
NUMBER(5,-2) 表示数的整数部分最大为7其中对整数的倒数2位为0,前面的取整。
NUMBER 表示使用默认值,即等同于NUMBER(5);
LONG 可变长度的字符数据,其长度可达2G个字节;
DATE 有效日期范围从公元前4712年1月1日到公元后4712年12月31日
RAW(size) 长度为size字节的原始二进制数据,size的最大值为2000字节;你必须为RAW指定一个size;
LONG RAW 可变长度的原始二进制数据,其最长可达2G字节;
CHAR(size) 固定长度的字符数据,其长度为size个字节;size的最大值是2000字节,而最小值和默认值是1;
NCHAR(size) 也是固定长度。根据Unicode标准定义
CLOB 一个字符大型对象,可容纳单字节的字符;不支持宽度不等的字符集;最大为4G字节
NCLOB 一个字符大型对象,可容纳单字节的字符;不支持宽度不等的字符集;最大为4G字节;储存国家字符集
BLOB 一个二进制大型对象;最大4G字节
BFILE 包含一个大型二进制文件的定位器,其储存在数据库的外面;使得可以以字符流I/O访问存在数据库服务器上的外部LOB;最大大小为4G字节.本回答被提问者采纳
参考技术D 1、VARCHAR2(size) 可变长度的字符串,其最大长度为4000个字节;
2、NUMBER(p,s) 精度为p并且数值范围为s的数值;精度p的范围从1到38;数值范围s的范围是从-84到127;
例如:NUMBER(5,2) 表示整数部分最大3位,小数部分为2位;
NUMBER(5,-2) 表示数的整数部分最大为7其中对整数的倒数2位为0,前面的取整。
NUMBER 表示使用默认值,即等同于NUMBER(5);
3、LONG 是可变长度的字符数据,其长度可达2G个字节;
4、DATE 日期类型,有效日期范围从公元前4712年1月1日到公元后4712年12月31日
5、RAW(size) 原始二进制数据,size的最大值为2000字节;
6、LONG RAW 可变长度的原始二进制数据,其最长可达2G字节;
7、CHAR(size) 固定长度的字符数据,其最大值是2000字节,而最小值和默认值是1;
8、NCHAR(size) 也是固定长度。根据Unicode标准定义;
9、CLOB 一个字符大型对象,可容纳单字节的字符;不支持宽度不等的字符集;最大为4G字节;
10、NCLOB 一个字符大型对象,可容纳单字节的字符;不支持宽度不等的字符集;最大为4G字节;
11、BLOB 一个二进制大型对象;最大4G字节;
12、BFILE 包含一个大型二进制文件的定位器,其储存在数据库的外面;使得可以以字符流I/O访问存在数据库服务器上的外部LOB;最大大小为4G字节;

以上是关于数据采集的主要类型都有哪些的主要内容,如果未能解决你的问题,请参考以下文章

MySql数据类型都有哪些

数据类型都有哪些

ORACLE中都有哪些数据类型

python数据类型都有哪些

python数据类型都有哪些

python的数据类型都有哪些