如何删除分析的XML文本中的'BODY'标签?(How to remove 'BODY' tag in parsed xml text?)

系统教程 行业动态 更新时间:2024-06-14 16:57:40
如何删除分析的XML文本中的'BODY'标签?(How to remove 'BODY' tag in parsed xml text?)

我是一个新手程序员。 我使用python 3和BeautifulSoup4解析了一些xml文件时遇到了问题。 也就是说,解析文本显示为

"BODY { MARGIN: 0px; FONT-FAMILY: Malgun Gothic; COLOR: #000000; FONT-SIZE: 10pt}P { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}LI { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px} blar - blar - blar "

'blar - blar - blar'是我想要解析的文本。

我如何删除该文本中无用的单词?

I'm a novice programmer. I got a problem with parsing some xml files using python 3 and BeautifulSoup4. That is, Parsed text is shown as

"BODY { MARGIN: 0px; FONT-FAMILY: Malgun Gothic; COLOR: #000000; FONT-SIZE: 10pt}P { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}LI { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px} blar - blar - blar "

'blar - blar - blar' is the text what i want to parse.

How can i remove that useless words in that text?

最满意答案

我会用这个正则表达式。 如果您缩小了想要缩小的字符串格式,可以创建更好的正则表达式。

import re text = "BODY { MARGIN: 0px; FONT-FAMILY: Malgun Gothic; COLOR: #000000; FONT-SIZE: 10pt}P { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}LI { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px} blar - blar - blar" print (re.findall("(?:(?:(.*?)}){3})(.*)",text)[0][1])

这里有一个regex101让你看看:

https://regex101.com/r/m0Q3hL/1

I'd use regex for this. If you narrowed the formatting of the string you want down a bit, you could create a nicer regex.

import re text = "BODY { MARGIN: 0px; FONT-FAMILY: Malgun Gothic; COLOR: #000000; FONT-SIZE: 10pt}P { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}LI { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px} blar - blar - blar" print (re.findall("(?:(?:(.*?)}){3})(.*)",text)[0][1])

Here's a regex101 for you to look at:

https://regex101.com/r/m0Q3hL/1

更多推荐

本文发布于:2023-04-13 12:27:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/dzcp/4511e095032f568824e6aaca915a042b.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:标签   BODY   XML   文本中   remove

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!