java过滤非utf8字符串_在Java截取字符串的时候如何过滤掉html标签

① utf8不支持java怎么办

服务器端
修改数据库配置文件/etc/my.cnf
character-set-server=utf8mb4
collation_server=utf8mb4_unicode_ci
重启MySQL（按照官方文答培档，这两个选项都是可以动态设置的，但是实际的经验是Server必须重启一下）
已有的表修改编码为utf8mb4
ALTER TABLE
tbl_name
CONVERT TO CHARACTER SET
charset_name；
使用下面这个语句只是修改了表的default编码
ALTER TABLE table_name CONVERT TO CHARACTER SET utf8mb4;
客户端
jdbc的连接字符串不支持utf8mb4，这个这种方式来解决的，如果服务器端设置了character_set_server=utf8mb4，则客户端会自动将传过去的utf-8视作清和唯utf8mb4。
Connector/J did not support utf8mb4 for servers 5.5.2 and newer.
Connector/J now auto-detects servers configured with character_set_server=utf8mb4 or treats the Java encoding utf-8 passed using characterEncoding=... as utf8mb4 in the SET NAMES= calls it makes when establishing the connection. (Bug #54175)
其他的client端，比如php、python需要看下client是否支持，如果不能在连接字符串中指定的话，可以在获取连接之后，执行”set names utf8mb4″来解决这个问题；
因为utf8mb4是utf8的超集，理论上即使client修改字符集为utf8mb4，也会不棚滑会对已有的utf8编码读取产生任何问题。

② 如何解决在doc下运行java中文乱码的情况

以下为转载~Java中文问题一直困扰着很多初学者，如果了解了Java系统的中文问题原理，我们就可以对中文问题能够采取根本的解决之道。最古老的解决方案是使用String的字节码转换，这种方案问题是不方便，我们需要破坏对象封装性，进行字节码转换。还有一种方式是对J2EE容器进行编码设置，如果J2EE应用系统脱离该容器，则会发生乱码，而且指定容器配置不符合J2EE应用和容器分离的原则。在Java内部运算中，涉及到的所有字符串都会被转化为UTF-8编码来进行运算。那么，在被Java转化之前，字符串是什么样的字符集？ Java总是根据操作系统的默认编码字符集来决定字符串的初始编码，而且Java系统的输锋誉樱入和输出的都是采取虚罩操作系统的默认编码。因此，如果能统一Java系统的输入、输出和操作系统3者的编码字符集合，将能够使Java系统正确处理和显示汉字。这是处理Java系统汉字的一个原则，但是在实际项目中，能够正确抓住和控制住Java系统的输入和输出部分是比较难的。J2EE中，由于涉及到外部浏览器和数据库等，所以中文问题乱码显得非常突出。J2EE应用程序是运行在J2EE容器中。在这个系统中，输入途径有很多种：一种是通过页面表单打包成请求（request）发往服务器的；第二种是通过数据库读入；还有第3种输入比较复杂，JSP在第一次运行时总是被编译成Servlet，JSP中常常包含中文字符，那么编译使用javac时，Java将根据默认的操作系统编码作为初始编码。除非特别指定，如在Jbuilder/eclipse中可以指定默认的字符集。输出途径也有几种：第一种是JSP页面的输出。由于JSP页面已经被编译成Servlet，那么在输出时，也将根据操作系统的默认编码来选择输出编码，除非指定输出编码方式；还有输出途径是数据库，将字符串输出到数据库。由此看来，一个J2EE系统的输入输出是非常复杂，而且是动态变化的，而Java是跨平台运行的，在实银丛际编译和运行中，都可能涉及到不同的操作系统，如果任由Java自由根据操作系统来决定输入输出的编码字符集，这将不可控制地出现乱码。正是由于Java的跨平台特性，使得字符集问题必须由具体系统来统一解决，所以在一个Java应用系统中，解决中文乱码的根本办法是明确指定整个应用系统统一字符集。指定统一字符集时，到底是指定ISO8859_1 、GBK还是UTF-8呢？（1）如统一指定为ISO8859_1，因为目前大多数软件都是西方人编制的，他们默认的字符集就是ISO8859_1，包括操作系统Linux和数据库MySQL等。这样，如果指定Jive统一编码为ISO8859_1，那么就有下面3个环节必须把握：开发和编译代码时指定字符集为ISO8859_1。运行操作系统的默认编码必须是ISO8859_1，如Linux。在JSP头部声明：。（2）如果统一指定为GBK中文字符集，上述3个环节同样需要做到，不同的是只能运行在默认编码为GBK的操作系统，如中文Windows。统一编码为ISO8859_1和GBK虽然带来编制代码的方便，但是各自只能在相应的操作系统上运行。但是也破坏了Java跨平台运行的优越性，只在一定范围内行得通。例如，为了使得GBK编码在linux上运行，设置Linux编码为GBK。那么有没有一种除了应用系统以外不需要进行任何附加设置的中文编码根本解决方案呢？将Java/J2EE系统的统一编码定义为UTF-8。UTF-8编码是一种兼容所有语言的编码方式，惟一比较麻烦的就是要找到应用系统的所有出入口，然后使用UTF-8去“结扎”它。一个J2EE应用系统需要做下列几步工作：开发和编译代码时指定字符集为UTF-8。JBuilder和Eclipse都可以在项目属性中设置。使用过滤器，如果所有请求都经过一个Servlet控制分配器，那么使用Servlet的filter执行语句，将所有来自浏览器的请求（request）转换为UTF-8，因为浏览器发过来的请求包根据浏览器所在的操作系统编码，可能是各种形式编码。关键一句：request.setCharacterEncoding("UTF-8")。网上有此filter的源码，Jdon框架源码中com.jdon.util.SetCharacterEncodingFilter需要配置web.xml 激活该Filter。在JSP头部声明：。在Jsp的html代码中，声明UTF-8:设定数据库连接方式是UTF-8。例如连接MYSQL时配置URL如下：jdbc:mysql://localhost:3306/test?useUnicode=true&characterEncoding=UTF-8一般数据库都可以通过管理设置设定UTF-8其他和外界交互时能够设定编码时就设定UTF-8，例如读取文件，操作XML等。一、Java中文问题的由来Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，Java和JSP文件本身编译时产生的乱码问题和Java程序于其他媒介交互产生的乱码问题。首
先Java（包括JSP）源文件中很可能包含有中文，而Java和JSP源文件的保存方式是基于字节流的，如果Java和JSP编译成class文件过程
中，使用的编码方式与源文件的编码不一致，就会出现乱码。基于这种乱码，建议在Java文件中尽量不要写中文（注释部分不参与编译，写中文没关系），如果
必须写的话，尽量手动带参数－ecoding GBK或－ecoding gb2312编译；对于JSP，在文件头加上<%
@ page contentType="text/html;charset=GBK"%>或<%@ page contentType=
"text/html;charset=gb2312"%>基本上就能解决这类乱码问题。本文要重点讨论的是第二类乱码，即Java程序与其他存储媒介交互时产生的乱码。很多存储媒介，如数据库，文件，流等的存储方式都是基于字节流的，Java程序与这些媒介交互时就会发生字符(char)与字节(byte)之间的转换，具体情况如下：从页面form提交数据到java程序 byte－>char
从java程序到页面显示 char?>byte从数据库到java程序 byte?>char
从java程序到数据库 char?>byte从文件到java程序 byte－>char
从java程序到文件 char－>byte从流到java程序 byte－>char
从java程序到流 char－>byte如果在以上转换过程中使用的编码方式与字节原有的编码不一致，很可能就会出现乱码。二、解决方法前面已经提到了Java程序与其他媒介交互时字符和字节的转换过程，如果这些转换过程中容易产生乱码。解决这些乱码问题的关键在于确保转换时使用的编码方式与字节原有的编码方式保持一致，下面分别论述（Java或JSP自身产生的乱码请参看第一部分）。1、JSP与页面参数之间的乱码
JSP
获取页面参数时一般采用系统默认的编码方式，如果页面参数的编码类型和系统默认的编码类型不一致，很可能就会出现乱码。解决这类乱码问题的基本方法是在页
面获取参数之前，强制指定request获取参数的编码方式：request.setCharacterEncoding("GBK")或
request.setCharacterEncoding("gb2312")。
如果在JSP将变量输出到页面时出现了乱码，可以通过设置
response.setContentType("text/html;charset=GBK")或response.setContentType
("text/html;charset=gb2312")解决。
如果不想在每个文件里都写这样两句话，更简洁的办法是使用Servlet规范中的过虑器指定编码，过滤器的在web.xml中的典型配置和主要代码如下：
web.xml:<filter>
<filter-name>CharacterEncodingFilter</filter-name>
<filter-class>net.vschool.web.CharacterEncodingFilter</filter-class>
<init-param>
<param-name>encoding</param-name>
<param-value>GBK</param-value>
</init-param>
</filter>
<filter-mapping>
<filter-name>CharacterEncodingFilter</filter-name>
<url-pattern>/*</url-pattern>
</filter-mapping>CharacterEncodingFilter.java:public class CharacterEncodingFilter implements Filter
{protected String encoding = null;public void init(FilterConfig filterConfig) throws ServletException
{
this.encoding = filterConfig.getInitParameter("encoding");
}public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain) throws IOException, ServletException
{
request.setCharacterEncoding(encoding);
response.setContentType("text/html;charset="+encoding);
chain.doFilter(request, response);
}}
2、Java与数据库之间的乱码
大
部分数据库都支持以unicode编码方式，所以解决Java与数据库之间的乱码问题比较明智的方式是直接使用unicode编码与数据库交互。很多数据
库驱动自动支持unicode，如Microsoft的SQLServer驱动。其他大部分数据库驱动，可以在驱动的url参数中指定，如如mm的
mysql驱动：jdbc:mysql://localhost/WEBCLDB?useUnicode=true&
characterEncoding=GBK。3、Java与文件/流之间的乱码
Java读写文件最常用的类是
FileInputStream/FileOutputStream和FileReader/FileWriter。其中FileInputStream
和FileOutputStream是基于字节流的，常用于读写二进制文件。读写字符文件建议使用基于字符的FileReader和
FileWriter，省去了字节与字符之间的转换。但这两个类的构造函数默认使用系统的编码方式，如果文件内容与系统编码方式不一致，可能会出现乱码。
在这种情况下，建议使用FileReader和FileWriter的父类：
InputStreamReader/OutputStreamWriter，它们也是基于字符的，但在构造函数中可以指定编码类型：
InputStreamReader(InputStream in, Charset cs) 和OutputStreamWriter
(OutputStream out, Charset cs)。4、其他
上面提到的方法应该能解决大部分乱码问题，如果在
其他地方还出现乱码，可能需要手动修改代码。解决Java乱码问题的关键在于在字节与字符的转换过程中，你必须知道原来字节或转换后的字节的编码方式，转
换时采用的编码必须与这个编码方式保持一致。我们以前使用Resin服务器，使用smartUpload组件上传文件，上传文件同时传递的中文参数获取没
有乱码问题。当在Linux中把Resin设置成服务后，上传文件同时的中文参数获取出现了乱码。这个问题困扰了我们很久，后来我们分析
smartUpload组件的源文件，因为文件上传采用的是字节流的方式，里面包含的参数名称和值也是字节流的方式传递的。smartUpload组件读
取字节流后再将参数名称和值从字节流中解析出来，问题就出现在smartUpload将字节流转换成字符串时采用了系统默认的编码，而将Resin设置成
服务后，系统默认的编码可能发生了改变，因此出现了乱码。后来，我们更改了smartUpload的源文件，增加了一个属性charset和
setCharset(String)方法，将upload()方法中提取参数语句：
String value = new String(m_binArray, m_startData, (m_endData - m_startData) + 1 );
改成了
String value = new String(m_binArray, m_startData, (m_endData - m_startData) + 1, charset );
终于解决了这个乱码问题。

③ java判断文件编码格式怎么判断编码格式

UTF-8编码的文本文档，有的带有BOM (Byte Order Mark, 字节序标志)，即0xEF, 0xBB, 0xBF，有的没有。Windows下的txt文本编辑器在保存UTF-8格式的文本文档时会自动添加BOM到文件头。在判断这类文档时，可以根据文档的前3个字节来进行判断。然敏颂而BOM不是必需的，而且也不是推荐的。对不希望UTF-8文档带有BOM的程序会带来兼容性问题，例如Java编译器在编译带有BOM的UTF-8源文件时就会出错。而且BOM去掉了UTF-8一个期望的特性，即是在文本全部是ASCII字符时UTF-8是和ASCII一致的，即UTF-8向下兼容ASCII。
在具体判断时，如果文档不带有BOM，就无法根据BOM做出判断，而且IsTextUnicode API也无法对UTF-8编码的Unicode字符串做出判断。那在编程判断时就要根据UTF-8字符编码的此册规律进行判断了。
UTF-8是一种多森拿宏字节编码的字符集，表示一个Unicode字符时，它可以是1个至多个字节，在表示上有规律：
1字节：0xxxxxxx
2字节：110xxxxx 10xxxxxx
3字节：1110xxxx 10xxxxxx 10xxxxxx
4字节：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
这样就可以根据上面的特征对字符串进行遍历来判断一个字符串是不是UTF-8编码了。
举例代码：
java.io.File f=new java.io.File("待判定的文本文件名");
try{
java.io.InputStream ios=new java.io.FileInputStream(f);
byte[] b=new byte[3];
ios.read(b);
ios.close();
if(b[0]==-17&&b[1]==-69&&b[2]==-65)
System.out.println(f.getName()+"编码为UTF-8");
else System.out.println(f.getName()+"可能是GBK");
}catch(Exception e){
e.printStackTrace();
}

④ protobuffer java中文乱码怎么解决

protobuf支持非UTF8字符串

protobuf规范string类型是必须是UTF8字符,但在C/C++中可以直接调用set方法设置任意编码方式的字符串,也可以直接取得对应字符串,但在控制台中会打印出编码不是UTF8字符的错误信息.

查看protobuf源代码发现是在wire_format.h中有一函数VerifyUTF8String()里进行编码判断的,而且有一宏定义GOOGLE_PROTOBUF_UTF8_VALIDATION_ENABLED可以取消此错误信息.估计google当初开发时用的是std::string类型,并没有编码方面的强制要求,只是在跨平台时没有统一编码容易引起问题,才统一使用UTF8方式传送字符串.

但像Java,Python缺省就是支持UNICODE,在protobuf库中就已经做了转换或检测,可以修改粗握兄相关代码不做此转换或检测.

如python中修改lib中的protobufxxx.egg中的decoder.py的StringDecoder()方法,将value.append(local_unicode(buffer[pos:new_pos], 'utf-8'))

改为value.append(buffer[pos:new_pos])
,将field_dict[key] = local_unicode(buffer[pos:new_pos], 'utf-8')
改为field_dict[key] = buffer[pos:new_pos]
即可,Python即不会报异常错误,也能皮团正确取得任意编码的字符串,但需要注意取出后需要进行编码(decode("gbk"))才能正确显示.
另外type_checkers.py中CheckValue()中对str的判断也需要去掉,encoder.py中带'utf-8'的全改了,才岩袭能正常编码.

至于如此改会不会有其它潜在的问题,还有待测试.

⑤ 请问java如何改变字符串的编码方式

byte[] b=string.getBytes("GB2312");//使用GB2312编码方式对字符串string进行编码
//这时要想将字节数组b的内容正确解码只能使用GB2312的编码方式进行解码，即
String str=new String(b,"GB2312");//这里若使用UTF-8编码方式来进行解码就会乱码
//将eclipse默认的编码方式改为UTF-8，只是用该编码方式对.java源文件进行编码保存
//这个对new String(string.getBytes("GB2312"),"UTF-8")没啥影运敏响的
//因为从java源文件获取字符串string时，已经通过UTF-8编码方式进行解码了
//而string.getBytes("GB2312")是使用指定的编码方吵晌式对字符串string进行从新编码
//旁碰枝这两者之间没啥关系的

⑥ jsp\java如何编写过滤器过滤特殊字符

正则表达式来校验：过滤器就网络一大堆，怎么写正则表达式，也可以网络，不知你说的特殊字符是什么字符，所以只能给方法

⑦ 判断JAVA字符串（内容为网址）中是否含有非英文、数字等字符

可以挨个读出来并判断《255的是英文，》255的是汉字或其它乱码。
这样每次只要遇到一个》255的就可以放弃，再度另一行文字。
例如： a=openfile（”原始文件。txt“）
b=openfile（”过滤后的文件。txt“）羡棚
wihle（！eof（纤脊a）毁派渗）
{
s=readline（a）
flage=false
for(int i=0 l i<s.length;i+=)
{
if(s[i]>255){
flage=true
}
}
wrtieline（s,b)
}
close(a)
close(b)

⑧ java判断字符串是否超出utf8编码

51CTO博客已为您找到关于java判断字符串是否嫌如为塌亏utf8编码的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及java判断芹衫启字符串是否为utf8...

⑨ java怎样过滤字符串中的\xf1\xa1

windows平台的换行符为/r/n;

linux平台的换行符为/n;

java程序中如何将不同平台用户输入的换行符转换成特定系统的神歼换行好瞎姿符.

2.解答友绝
java 代码

1. String userInputString = userInput;
2. userInputString = userInputString.replaceAll ( "\r", "" );
3. userInputString = userInputString.replaceAll ( "\n", "\\\\"+System.getPropert("line.separator"));

⑩ 在Java截取字符串的时候，如何过滤掉html标签

去除html标签
function
strip_tags($string,
$replace_with_space
=
true)
{
if
($replace_with_space)
{
return
preg_replace('!<[^>]*?>!',
'
',
$string);
}
else
{
return
strip_tags($string);
}
}
截取字符函数（匹配各种编码）
function
truncate($string,
$length
=
80,
$etc
=
'...',
$break_words
=
false,
$middle
=
false){
if
($length
==
0)
return
'';
if
(is_callable('mb_strlen'))
{
if
(mb_detect_encoding($string,
'utf-8,
iso-8859-1')
===
'utf-8')
{
//
$string
has
utf-8
encoding
if
(mb_strlen($string)
>
$length)
{
$length
-=
min($length,
mb_strlen($etc));
if
(!$break_words
&&
!$middle)
{
$string
=
preg_replace('/\s+?(\s+)?$/u',
'',
mb_substr($string,
0,
$length
+
1));
}
if
(!$middle)
{
return
mb_substr($string,
0,
$length)
.
$etc;
}
else
{
return
mb_substr($string,
0,
$length
/
2)
.
$etc
.
mb_substr($string,
-
$length
/
2);
}
}
else
{
return
$string;
}
}
}
//
$string
has
no
utf-8
encoding
if
(strlen($string)
>
$length)
{
$length
-=
min($length,
strlen($etc));
if
(!$break_words
&&
!$middle)
{
$string
=
preg_replace('/\s+?(\s+)?$/',
'',
substr($string,
0,
$length
+
1));
}
if
(!$middle)
{
return
substr($string,
0,
$length)
.
$etc;
}
else
{
return
substr($string,
0,
$length
/
2)
.
$etc
.
substr($string,
-
$length
/
2);
}
}
else
{
return
$string;
}
}
综合就是
$arc=strip_tags($arc);

导航:首页 > 净水问答 > java过滤非utf8字符串

java过滤非utf8字符串

与java过滤非utf8字符串相关的资料