Hive内置的字符串函数

Posted 2022-04-05 wwbz

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hive内置的字符串函数相关的知识，希望对你有一定的参考价值。

返回类型	函数名	描述
int	ascii(string str)	返回str第一个字符串的数值
string	base64(binary bin)	将二进制参数转换为base64字符串
string	concat(string\|binary A, string\|binary B...)	返回将A和B按顺序连接在一起的字符串，如：concat(‘foo‘, ‘bar‘) 返回‘foobar‘
array<struct<string,double>>	context_ngrams(array<array<string>>, array<string>, int K, int pf)	从一组标记化的句子中返回前k个文本
string	concat_ws(string SEP, string A, string B...)	类似concat() ，但使用自定义的分隔符SEP
string	concat_ws(string SEP, array<string>)	类似concat_ws() ，但参数为字符串数组
string	decode(binary bin, string charset)	使用指定的字符集将第一个参数解码为字符串，如果任何一个参数为null，返回null。可选字符集为： ‘US_ASCII‘, ‘ISO-8859-1‘, ‘UTF-8‘, ‘UTF-16BE‘, ‘UTF-16LE‘, ‘UTF-16‘
binary	encode(string src, string charset)	使用指定的字符集将第一个参数编码为binary ，如果任一参数为null，返回null
int	find_in_set(string str, string strList)	返回str在strList中第一次出现的位置，strList为用逗号分隔的字符串，如果str包含逗号则返回0，若任何参数为null，返回null。如： find_in_set(‘ab‘, ‘abc,b,ab,c,def‘) 返回3
string	format_number(number x, int d)	将数字x格式化为‘#,###,###.##‘，四舍五入为d位小数位，将结果做为字符串返回。如果d=0，结果不包含小数点或小数部分
string	get_json_object(string json_string, string path)	从基于json path的json字符串中提取json对象，返回json对象的json字符串，如果输入的json字符串无效返回null。Json 路径只能有数字、字母和下划线，不允许大写和其它特殊字符
boolean	in_file(string str, string filename)	如果str在filename中以正行的方式出现，返回true
int	instr(string str, string substr)	返回substr在str中第一次出现的位置。若任何参数为null返回null，若substr不在str中返回0。Str中第一个字符的位置为1
int	length(string A)	返回A的长度
int	locate(string substr, string str[, int pos])	返回substr在str的位置pos后第一次出现的位置
string	lower(string A) lcase(string A)	返回字符串的小写形式
string	lpad(string str, int len, string pad)	将str左侧用字符串pad填充，长度为len
string	ltrim(string A)	去掉字符串A左侧的空格，如：ltrim(‘ foobar ‘)的结果为‘foobar ‘
array<struct<string,double>>	ngrams(array<array<string>>, int N, int K, int pf)	从一组标记化的Returns the top-k 句子中返回前K个N-grams
string	parse_url(string urlString, string partToExtract [, string keyToExtract])	返回给定URL的指定部分，partToExtract的有效值包括HOST，PATH， QUERY， REF， PROTOCOL， AUTHORITY，FILE和USERINFO。例如： parse_url(‘http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1‘, ‘HOST‘) 返回 ‘facebook.com‘.。当第二个参数为QUERY时，可以使用第三个参数提取特定参数的值，例如： parse_url(‘http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1‘, ‘QUERY‘, ‘k1‘) 返回‘v1‘
string	printf(String format, Obj... args)	将输入参数进行格式化输出
string	regexp_extract(string subject, string pattern, int index)	使用pattern从给定字符串中提取字符串。如： regexp_extract(‘foothebar‘, ‘foo(.*?)(bar)‘, 2) 返回‘bar‘ 有时需要使用预定义的字符类：使用‘\s‘ 做为第二个参数将匹配s，‘s‘匹配空格等。参数index是Java正则匹配器方法group()方法中的索引
string	regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)	使用REPLACEMENT替换字符串INITIAL_STRING中匹配PATTERN的子串，例如： regexp_replace("foobar", "oo\|ar", "") 返回‘fb‘
string	repeat(string str, int n)	将str重复n次
string	reverse(string A)	将字符串A翻转
string	rpad(string str, int len, string pad)	在str的右侧使用pad填充至长度len
string	rtrim(string A)	去掉字符串A右侧的空格，如： rtrim(‘ foobar ‘) 返回 ‘ foobar‘
array<array<string>>	sentences(string str, string lang, string locale)	将自然语言文本处理为单词和句子，每个句子在适当的边界分割，返回单词的数组。参数lang和local为可选参数，例如： sentences(‘Hello there! How are you?‘) 返回( ("Hello", "there"), ("How", "are", "you") )
string	space(int n)	返回n个空格的字符串
array	split(string str, string pat)	用pat分割字符串str，pat为正则表达式
map<string,string>	str_to_map(text[, delimiter1, delimiter2])	使用两个分隔符将文本分割为键值对。第一个分隔符将文本分割为K-V 对，第二个分隔符分隔每个K-V 对。默认第一个分隔符为“，“，第二个分隔符为=
string	substr(string\|binary A, int start) substring(string\|binary A, int start)	返回A从位置start直到结尾的子串
string	substr(string\|binary A, int start, int len) substring(string\|binary A, int start, int len)	返回A中从位置start开始，长度为len的子串，如： substr(‘foobar‘, 4, 1) 返回 ‘b‘
string	translate(string input, string from, string to)	将input中出现在from中的字符替换为to中的字符串，如果任何参数为null，结果为null
string	trim(string A)	去掉字符串A两端的空格
binary	unbase64(string str)	将base64字符串转换为二进制
string	upper(string A) ucase(string A)	返回字符串A的大写形式

以上是关于Hive内置的字符串函数的主要内容，如果未能解决你的问题，请参考以下文章