解决乱码问题

Posted 2020-10-18 Im X

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了解决乱码问题相关的知识，希望对你有一定的参考价值。

浏览器服务器的编码问题

1、pageEncoding="UTF-8"的作用是设置JSP编译成Servlet时使用的编码。 

2、contentType="text/html;charset=UTF-8"的作用是指定对服务器响应进行重新编码的编码。  

3、request.setCharacterEncoding("UTF-8")的作用是设置对客户端请求进行重新编码的编码。

4、response.setCharacterEncoding("UTF-8")的作用是指定对服务器响应进行重新编码的编码。 

response.setCharacterEncoding("UTF-8")的作用是指定对服务器响应进行重新编码的编码。同时，浏览器也是根据这个参数来对其接收到的数据进行重新编码（或者称为解码）。所以在无论你在JSP中设置response.setCharacterEncoding ("UTF-8")或者response.setCharacterEncoding("GBK")，浏览器均能正确显示中文（前提是你发送到浏览器的数据编码是正确的，比如正确设置了pageEncoding参数等）。

对于发送数据，服务器按照response.setCharacterEncoding—contentType—pageEncoding的优先顺序，对要发送的数据进行编码。 

对于接收数据，要分三种情况。一种是浏览器直接用URL提交的数据，另外两种是用表单的GET和POST方式提交的数据。

Post

对于表单中POST方式提交的数据，只要在接收数据的JSP中正确request.setCharacterEncoding参数，即将对客户端请求进行重新编码的编码设置成浏览器编码，就可以保证得到的参数编码正确。有写读者可能会问，那如何得到浏览器编码呢？上面我们提过了，在默认请情况下，浏览器编码就是你在响应该请求的JSP页面中response.setCharacterEncoding设置的值。所以对于POST表单提交的数据，在获得数据的JSP页面中request.setCharacterEncoding要和生成提交该表单的JSP页面的 response.setCharacterEncoding设置成相同的值。 

get/url

对于URL提交的数据和表单中GET方式提交的数据，在接收数据的JSP中设置request.setCharacterEncoding参数是不行的，因为在Tomcat5.0中，默认情况下使用ISO- 8859-1对URL提交的数据和表单中GET方式提交的数据进行重新编码（解码），而不使用该参数对URL提交的数据和表单中GET方式提交的数据进行重新编码（解码）。要解决该问题，应该在Tomcat的配置文件的Connector标签中设置useBodyEncodingForURI或者 URIEncoding属性，其中useBodyEncodingForURI参数表示是否用request.setCharacterEncoding 参数对URL提交的数据和表单中GET方式提交的数据进行重新编码，在默认情况下，该参数为false（Tomcat4.0中该参数默认为true）； URIEncoding参数指定对所有GET方式请求（包括URL提交的数据和表单中GET方式提交的数据）进行统一的重新编码（解码）的编码。 URIEncoding和useBodyEncodingForURI区别是，URIEncoding是对所有GET方式的请求的数据进行统一的重新编码（解码），而useBodyEncodingForURI则是根据响应该请求的页面的request.setCharacterEncoding参数对数据进行的重新编码（解码），不同的页面可以有不同的重新编码（解码）的编码。所以对于URL提交的数据和表单中GET方式提交的数据，可以修改 URIEncoding参数为浏览器编码或者修改useBodyEncodingForURI为true，并且在获得数据的JSP页面中 request.setCharacterEncoding参数设置成浏览器编码。

这里我们输出的是"Hello World"英文，使用浏览器去访问的时候是没有乱码问题，下面我们在将代码改写一下，
 
[java]view plaincopy 
response.getOutputStream.write("中国".getBytes("utf-8"));  
这时候我们使用浏览器去访问数据的时候，当然我们可能会看到"中国"，也有可能看到的是乱码，原因很简单，如果浏览器使用的是gb2312码表打开的话，就是乱码，如果是使用utf-8码表打开的话，就是正常的数据。当然我们可以手动的去设置浏览器的打开码表，默认的是gb2312(系统默认码表)，那么如果我们使用utf-8将数据写入到Response中，然后浏览器使用的是默认的码表去拿取数据进行显示，那肯定是乱码了，那么我们该怎么办呢？，让用户手动的去修改浏览器的打开码表，那貌似太恶心了，所以这里我们就要介绍一个响应头字段的作用了，Content-type:这个头就是告诉浏览器以什么方式打开数据，并且指定相应的码表，具体代码如下： 
 
[java]view plaincopy 
response.setHeader("Content-type", "text/html;charset=utf-8");  
这样,我们就可以告诉浏览器以utf-8码表去显示数据，这样也就不会再有乱码的问题了。 
这里我们在扩展一下就是还有一种方式控制浏览器的打开码表，那就是使用<meta>标签来实现：
 
[java]view plaincopy 
response.getOutputStream().write("<meta http-equiv=‘content-type‘ content=‘text/html;charset=utf-8‘>".getBytes());  
这里我们组建了一个<meta>标签，并将这个标签写入到Response容器中，当客户机使用去拿取这段数据的时候，发现有html中的标签<meta>所以会通过一些处理会把上面的字符串当做是是html代码来显示。这里使用了<meat>标签来解决乱码问题的。 
 

上面使用的是字节流的方式来给客户机发送数据的，有时候我们可能会使用字符流来显示数据，因为字符流在特定场合下回比字节流更方便的输出，其实这里使用response.getWriter()来获取一个PrintWriter字符流对象，然后我们可以使用PrintWriter对象的write方法直接写字符串数据，但是这里也是需要来解决乱码的问题，而且这里的需要解决的问题比上面的字节流更麻烦。下面来看一下吧：
 
[java]view
 plaincopy 

response.getWriter.write("中国");  

通过上面的方法进行输出，显示的是乱码，首先servlet将"中国"字符串写入到Response容器中，但是这里需要注意的一个问题就是，将"中国"写入到Response中，那么Response容器中是怎么存储"中国"字符串的，因为Response这些技术都是老外发明的，所以他们肯定是使用iso8859-1编码来进行存储字节数据的，所以这里就会有一个大问题，因为我们知道iso8859-1使用的是单个字节表示一个字符的，而gb2312使用的是两个字节，utf-8使用的是三个字节，所以Response将使用iso8859-1码表进行编码，那么存储的是两个乱码字节，所以，当客户机从Response容器中去拿取数据的时候显示的肯定是乱码，那么当我们使用 
 
[java]view
 plaincopy 

response.setHeader("Content-type","text/html;charset=utf-8")  

来设置浏览器的打开数据的码表，但是我们会发现还是显示两个？？,这个也是很简单的，因为我们在编写JavaSE中，也会知道这个问题就是将utf-8这种多字节的码表转到低字节码表iso8859-1，当我这时候在将结果转成utf-8的数据，这时候是不可能在转回原始数据的。所以说我们应该去修改Response容器的码表，将其码表改成utf-8，这时候就可以"中国"写入到Response容器中，而且会以utf-8的码表进行存储的，当客户机在用utf-8码表打开的时候就不会有问题了， 

上面我们使用字节流来进行书写数据的时候，是没有问题的，因为是将"中国"的字节数据直接写到Response容器中的，所以不会涉及到Response容器编码的问题。

所以说当我们在使用字符流写入数据的时候，我们一定要记得修改Response容器的编码，不然会出现乱码的
 

response.setCharacterEncoding("utf-8");  

response.setHeader("content-type", "text/html;charset=utf-8");    告诉浏览器编码以utf-8的编码格式显示数据
所以要用这两行代码的，同时response对象中还有一个方法:setContentType,这个方法可以直接设置Content-type字段的值
response.setContentType("text/html;charset=utf-8");  
其实这一行代码就相当于上面的两行代码的效果，因为在setContentType方法中已经调用了setCharacterEncoding方法设置了Response容器的编码了。

以上是关于解决乱码问题的主要内容，如果未能解决你的问题，请参考以下文章