python过滤html字符_python 如何过滤 HTML标签

『壹』如何用python过滤html标签和准确的提取内容

可以参考这个实例，代码中有过滤html标签及提取内容：

Python网页爬虫入门——抓取网络贴吧内容实例
http://lovesoo.org/getting-started-python-web-crawler-to-crawl-the--post-bar-content-instance.html

『贰』 python去掉html标签

s='<SPANstyle="FONT-SIZE:9pt">开始1~3<SPANlang=EN-US><?xml:namespaceprefix=ons="urn:schemas-microsoft-com:office:office"/><o:p></o:p></SPAN></SPAN>'
importre
d=re.sub('<[^>]+>','',s)
printd
开始1~3

『叁』 python正则表达式过滤网页div只保留其中的一个字符串

importre
s='<divclass="displayHeadingName"data-reactid="41">ShaoYang</div>'
pattern=re.compile(r'(?<=<div)*?(?<=>).*?(?=</div>)')
print(re.search(pattern,s))

『肆』 python如何解析html中的转义字符

用python写个html的转义字符转换的函数，然后调用这个函数进行转义字符处理即可。

html中的转义字符并不多。

html常规转义字符

『伍』 python 怎么提取html内容啊（正则）

python提取html内容的方法。如下参考：

1.首先，打开Python来定义字符串，在定义的字符串后面加上中括号，然后在要提取的字符位置输入。

『陆』 python 去除html标签的几种方法

python去除html标签的几种方法，代码如下：

#!/usr/bin/python
#-*-coding:utf-8-*-
'''
Createdon2015-07-08
@author:Administrator
'''
importre

classFilterTag():
def__init__(self):
pass
deffilterHtmlTag(self,htmlStr):
'''
过滤html中的标签
:paramhtmlStr:html字符串或是网页源码
'''
self.htmlStr=htmlStr
#先过滤CDATA
re_cdata=re.compile('//]*//]]>',re.I)#匹配CDATA
re_script=re.compile('<s*script[^>]*>[^<]*<s*/s*scripts*>',re.I)#Script
re_style=re.compile('<s*style[^>]*>[^<]*<s*/s*styles*>',re.I)#style
re_br=re.compile('')#处理换行
re_h=re.compile(']*>')#HTML标签
re_comment=re.compile('')#HTML注释
s=re_cdata.sub('',htmlStr)#去掉CDATA
s=re_script.sub('',s)#去掉SCRIPT
s=re_style.sub('',s)#去掉style
s=re_br.sub('
',s)#将br转换为换行
blank_line=re.compile('
+')#去掉多余的空行
s=blank_line.sub('
',s)
s=re_h.sub('',s)#去掉HTML标签
s=re_comment.sub('',s)#去掉HTML注释
#去掉多余的空行
blank_line=re.compile('
+')
s=blank_line.sub('
',s)
filterTag=FilterTag()
s=filterTag.replaceCharEntity(s)#替换实体
prints

defreplaceCharEntity(self,htmlStr):
'''
替换html中常用的字符实体
使用正常的字符替换html中特殊的字符实体
可以添加新的字符实体到CHAR_ENTITIES中
CHAR_ENTITIES是一个字典前面是特殊字符实体后面是其对应的正常字符
:paramhtmlStr:
'''
self.htmlStr=htmlStr
CHAR_ENTITIES={'nbsp':'','160':'',
'lt':'<','60':'<',
'gt':'>','62':'>',
'amp':'&','38':'&',
'quot':'"','34':'"',}
re_charEntity=re.compile(r'&#?(?Pw+);')
sz=re_charEntity.search(htmlStr)
whilesz:
entity=sz.group()#entity全称，如>
key=sz.group('name')#去除&;后的字符如（""--->key="nbsp"）去除&;后entity,如>为gt
try:
htmlStr=re_charEntity.sub(CHAR_ENTITIES[key],htmlStr,1)
sz=re_charEntity.search(htmlStr)
exceptKeyError:
#以空串代替
htmlStr=re_charEntity.sub('',htmlStr,1)
sz=re_charEntity.search(htmlStr)
returnhtmlStr

defreplace(self,s,re_exp,repl_string):
returnre_exp.sub(repl_string)


defstrip_tags(self,htmlStr):
'''
使用HTMLParser进行html标签过滤
:paramhtmlStr:
'''
self.htmlStr=htmlStr
htmlStr=htmlStr.strip()
htmlStr=htmlStr.strip("
")
result=[]
parser=HTMLParser()
parser.handle_data=result.append
parser.feed(htmlStr)
parser.close()
return''.join(result)

defstripTagSimple(self,htmlStr):
'''
最简单的过滤html<>标签的方法注意必须是<任意字符>而不能单纯是<>
:paramhtmlStr:
'''
self.htmlStr=htmlStr
#dr=re.compile(r'<[^>]+>',re.S)
dr=re.compile(r']*>',re.S)
htmlStr=re.sub(dr,'',htmlStr)
returnhtmlStr

if__name__=='__main__':
#s=file('Google.html').read()
filters=FilterTag()
printfilters.stripTagSimple("<1>你好")

『柒』如何用Python爬取出HTML指定标签内的文本

你好！

可以通过lxml来获取指定标签的内容。

#安装lxml
pipinstalllxml


importrequests
fromlxmlimporthtml

defgetHTMLText(url):
....

etree=html.etree
root=etree.HTML(getHTMLText(url))
#这里得到一个表格内tr的集合
trArr=root.xpath("//div[@class='news-text']/table/tbody/tr");

#循环显示tr里面的内容
fortrintrArr:
rank=tr.xpath("./td[1]/text()")[0]
name=tr.xpath("./td[2]/div/text()")[0]
prov=tr.xpath("./td[3]/text()")[0]
strLen=22-len(name.encode('GBK'))+len(name)
print('排名：{:<3},学校名称：{:<{}}	，省份：{}'.format(rank,name,strLen,prov))

希望对你有帮助！

『捌』 python html字符串怎么写

抓网页数据经常遇到例如>或者这种HTML转义符，抓到字符串里很是烦人。
比方说一个从网页中抓到的字符串
html = '<abc>'

用Python可以这样处理：
import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html) #这样就得到了txt = '<abc>'

如果还想转回去，可以这样：
import cgi
html = cgi.escape(txt) # 这样又回到了 html = '<abc>'

『玖』 python正则表达式去除html标签的属性

importre
test='<pclass="pictext"align="center">陈细妹</p>'
test=re.sub(r'(<[^>s]+)s[^>]+?(>)',r'12',test)
print(test)

『拾』 python 如何过滤 HTML标签

基于文本文档(Markdown) 设想好需要的基本需要的表、字段、类型；
使用 Rails Migration 随着功能的开发逐内步创建表；
随着细容节功能的开发、需求，逐步增加字段，删除字段，或者调整字段类型；
第一个 Release 的时候清理 Migrations 合并成一个;
随着后期的改动，逐步增加、修改、删除字段或表。
基本上我的所有项目都是这么搞的，这和项目是否复杂无关。

导航:首页 > 净水问答 > python过滤html字符

python过滤html字符

与python过滤html字符相关的资料