说明:
html中的空行,一般可能的情况为:
空标签组成的例如<p></p>或<div> </div>或<p><font> </font></p>。
在python中,替换类似的内容,需要使用python的正则表达式。
相关文章可以参考:
python正则表达式re模块的用法详解
python清除字符串中非数字字符(python正则实例)
python清除字符串中非字母字符(python正则表达式)
Python使用正则表达式验证Url地址的例子
python将正则后的分组倒过来的一段代码
Python 正则表达式之 re 模块的使用
接下来,我们介绍今天的例子,有兴趣的朋友参考下。
代码:
 
#!/bin/python
# site: www.jb200.com
#
__author__ = 'yukaizhao post @ http://jb200.com/'
import re
def remove_empty_tag(input):
    pattern = re.compile(r'<([a-z]+d?)b[^>]*>( |[s ])*</1>',re.IGNORECASE)
    maxLoopTimes = 10
    i = 0
    while i < maxLoopTimes:
        tem = pattern.sub('',input)
        if tem == input:
            input = tem
            break
        else:
            input = tem
        i += 1
return input
if __name__ == '__main__':
    output = remove_empty_tag('<div>nt   </div>hello')
    print output
    output = remove_empty_tag('<div><span>    </span></div>hello world')
    print output
输出:
hello
hello world
空行去掉了。