# xml格式

# xml简介

XML（可扩展标记语言）是一种用于存储和传输数据的标记语言，具有结构清晰、可扩展性强和跨平台的特点。以下是XML的详细介绍：

# 1. XML基本概念

定义：XML（eXtensible Markup Language）是一种自描述的标记语言，用户可自定义标签，专注于数据的结构与内容，而非显示（与HTML不同）。
设计目标：存储、传输和交换数据，确保数据在不同系统间的兼容性。

# 2. XML文档结构

一个完整的XML文档通常包含以下部分：

<?xml version="1.0" encoding="UTF-8"?>  <!-- XML声明 -->
<!-- 注释 -->
<根元素>
  <元素 属性="值">内容</元素>
  <嵌套元素>
    <子元素>文本</子元素>
    <空元素/>
  </嵌套元素>
  <特殊内容><![CDATA[<无需转义的文本>]]></特殊内容>
</根元素>

XML声明：指定版本（必选）和编码（可选，默认UTF-8）。
根元素：唯一顶层元素，所有其他元素的父级。
元素：由开始标签、内容和结束标签组成，可嵌套。
属性：键值对形式，位于开始标签内，用于附加信息。
注释：，不可嵌套。
CDATA区：包裹含特殊字符（如<、&）的文本，避免转义。

# 3. 语法规则

标签规则：
- 严格区分大小写（如<Tag>与<tag>不同）。
- 必须闭合：成对标签（<a></a>）或自闭合空标签（<a/>）。
- 正确嵌套：子元素需在父元素内完全闭合。
命名规则：
- 以字母或下划线开头，可含数字、连字符（-）、点（.）。
- 禁止空格和保留字（如xml）。
属性值：必须用引号（单/双）包裹。
保留字符：<、>、&需转义为<、>、&。

# 4. 核心特性

可扩展性：用户自定义标签，适应不同领域（如RSS、SOAP）。
自描述性：标签名通常反映数据含义，便于阅读。
平台无关性：纯文本格式，兼容任何系统。

# 5. 应用场景

配置文件：如Java的web.xml、Spring的applicationContext.xml。
数据交换：企业系统间传输结构化数据（如订单、发票）。
Web服务：SOAP协议使用XML格式传递消息。
文档格式：Microsoft Office的DOCX、XLSX基于XML（OOXML）。
数据存储：如Android的布局文件、SVG图像格式。

# 6. 相关技术

DTD/XSD：验证XML结构合法性。
XPath：查询XML中的特定节点。
XSLT：将XML转换为其他格式（如HTML、PDF）。
解析器：DOM（树形结构，适合小文件）和SAX（事件驱动，适合大文件）。

# 7. 示例：图书目录

<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
  <book category="小说" id="B001">
    <title lang="zh">活着</title>
    <author>余华</author>
    <year>1993</year>
    <price>39.90</price>
  </book>
  <book category="科技" id="B002">
    <title lang="en">XML Basics</title>
    <author>John Doe</author>
    <year>2020</year>
    <price currency="USD">49.99</price>
    <description><![CDATA[Learn <XML> & APIs!]]></description>
  </book>
</bookstore>

# 8. 优缺点

优点：
- 结构清晰，可读性强。
- 跨平台支持广泛。
- 支持复杂数据（如命名空间、层级关系）。
缺点：
- 冗长，文件体积较大。
- 解析效率低于JSON等轻量格式。

# 9. 注意事项

编码一致性：文件保存编码需与声明一致（如UTF-8）。

命名空间：使用xmlns避免标签冲突，如：

<root xmlns:xs="http://www.w3.org/2001/XMLSchema">
  <xs:element name="demo"/>
</root>

XML凭借其灵活性和结构性，在配置管理、数据交换等领域仍占据重要地位，尽管在部分场景中被JSON取代，但其严谨性使其在特定需求下不可替代。

# Python处理xml

在 Python 中处理 XML 的常用库及代码示例如下：

# 1. 标准库

# (1) `xml.etree.ElementTree` (推荐)

特点：轻量级、易用，适合大多数场景。
代码示例：

import xml.etree.ElementTree as ET

# 解析 XML
tree = ET.parse('books.xml')
root = tree.getroot()

# 遍历元素
for book in root.findall('book'):
    title = book.find('title').text
    author = book.find('author').text
    print(f"书名: {title}, 作者: {author}")

# 修改内容
for price in root.iter('price'):
    new_price = float(price.text) * 0.9
    price.text = str(new_price)

# 添加新元素
new_book = ET.Element("book", category="历史")
ET.SubElement(new_book, "title").text = "史记"
root.append(new_book)

# 保存 XML
tree.write('updated_books.xml', encoding='utf-8', xml_declaration=True)

# (2) `xml.dom.minidom`

特点：DOM 解析，适合小文件，内存占用高。
代码示例：

from xml.dom import minidom

doc = minidom.parse('books.xml')
books = doc.getElementsByTagName('book')
for book in books:
    title = book.getElementsByTagName('title')[0].firstChild.data
    print(title)

# (3) `xml.sax`

特点：事件驱动解析，适合大文件，内存占用低。
代码示例：

import xml.sax

class BookHandler(xml.sax.ContentHandler):
    def startElement(self, name, attrs):
        if name == 'book':
            print("分类:", attrs['category'])
    
    def characters(self, content):
        self.current_data = content
    
    def endElement(self, name):
        if name == 'title':
            print("标题:", self.current_data)

parser = xml.sax.make_parser()
parser.setContentHandler(BookHandler())
parser.parse('books.xml')

# 2. 第三方库

# (1) `lxml` (推荐)

特点：高性能，支持 XPath 和 XSLT，兼容 ElementTree API。
安装：pip install lxml
代码示例：

from lxml import etree

# 解析 XML
tree = etree.parse('books.xml')
root = tree.getroot()

# 使用 XPath 查询
books = root.xpath('//book[price>40]')
for book in books:
    title = book.xpath('title/text()')[0]
    print(title)

# 生成 XML
root = etree.Element("root")
child = etree.SubElement(root, "child", name="test")
child.text = "内容"
etree.dump(root)  # 输出: <root><child name="test">内容</child></root>

# (2) `xmltodict`

特点：将 XML 转为 Python 字典，适合简单场景。
安装：pip install xmltodict
代码示例：

import xmltodict

with open('books.xml') as f:
    data = xmltodict.parse(f.read())
    print(data['bookstore']['book'][0]['title'])

# 字典转 XML
data = {
    'root': {
        '@attr': 'value',
        'child': {'text': 'Hello XML'}
    }
}
xml_str = xmltodict.unparse(data, pretty=True)
print(xml_str)

# 3. 常见操作总结

操作	ElementTree 示例	lxml 示例
解析 XML	`ET.parse('file.xml')`	`etree.parse('file.xml')`
获取根元素	`root = tree.getroot()`	`root = tree.getroot()`
查找元素	`root.find('tag')` 或 `root.findall()`	`root.xpath('//tag')`
读取文本	`element.text`	`element.text`
读取属性	`element.get('attr')`	`element.get('attr')`
生成 XML	`ET.Element()` + `ET.SubElement()`	`etree.Element()` + `etree.SubElement()`
保存文件	`tree.write('output.xml')`	`tree.write('output.xml')`

# 4. 注意事项

编码问题：确保读写时使用一致的编码（如 utf-8）。

命名空间处理：

# ElementTree 处理命名空间
ns = {'ns': 'http://example.com/ns'}
title = root.find('ns:title', ns)

性能选择：
- 小文件：ElementTree 或 lxml。
- 大文件：xml.sax 或 lxml 的迭代解析。
安全性：避免解析不可信来源的 XML（存在 XXE 攻击风险）。

# 5. 实战示例：解析 RSS 订阅

import requests
from lxml import etree

url = 'https://example.com/rss'
response = requests.get(url)
root = etree.fromstring(response.content)

for item in root.xpath('//item'):
    title = item.xpath('title/text()')[0]
    link = item.xpath('link/text()')[0]
    print(f"{title}: {link}")

根据需求选择合适的库：

快速开发：用 xml.etree.ElementTree 或 lxml。
高性能或复杂查询：优先选 lxml。
简化数据转换：尝试 xmltodict。

# Java处理xml

在 Java 中处理 XML 的常用库及代码示例如下：

# 1. 标准库

# (1) DOM（Document Object Model）

特点：基于树形结构，适合小文件，内存占用高。
代码示例：

import org.w3c.dom.*;
import javax.xml.parsers.*;

public class DOMExample {
    public static void main(String[] args) throws Exception {
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
        DocumentBuilder builder = factory.newDocumentBuilder();
        Document doc = builder.parse("books.xml");
        
        NodeList books = doc.getElementsByTagName("book");
        for (int i = 0; i < books.getLength(); i++) {
            Element book = (Element) books.item(i);
            String title = book.getElementsByTagName("title").item(0).getTextContent();
            System.out.println("书名: " + title);
        }
    }
}

# (2) SAX（Simple API for XML）

特点：事件驱动，适合大文件，内存占用低。
代码示例：

import org.xml.sax.*;
import org.xml.sax.helpers.*;

public class SAXExample extends DefaultHandler {
    public void startElement(String uri, String localName, String qName, Attributes atts) {
        if (qName.equals("book")) {
            System.out.println("分类: " + atts.getValue("category"));
        }
    }
    
    public static void main(String[] args) throws Exception {
        XMLReader reader = XMLReaderFactory.createXMLReader();
        reader.setContentHandler(new SAXExample());
        reader.parse("books.xml");
    }
}

# (3) StAX（Streaming API for XML）

特点：流式解析（推拉模型），性能和内存平衡。
代码示例：

import javax.xml.stream.*;
import java.io.FileReader;

public class StAXExample {
    public static void main(String[] args) throws Exception {
        XMLInputFactory factory = XMLInputFactory.newInstance();
        XMLStreamReader reader = factory.createXMLStreamReader(new FileReader("books.xml"));
        
        while (reader.hasNext()) {
            int event = reader.next();
            if (event == XMLStreamConstants.START_ELEMENT && reader.getLocalName().equals("title")) {
                System.out.println("标题: " + reader.getElementText());
            }
        }
    }
}

# 2. 第三方库

# (1) JDOM

特点：简化 XML 操作的 API，类似 DOM。
依赖：需添加 JDOM 库。
代码示例：

import org.jdom2.*;
import org.jdom2.input.SAXBuilder;

public class JDOMExample {
    public static void main(String[] args) throws Exception {
        SAXBuilder builder = new SAXBuilder();
        Document doc = builder.build("books.xml");
        
        for (Element book : doc.getRootElement().getChildren("book")) {
            String author = book.getChildText("author");
            System.out.println("作者: " + author);
        }
    }
}

# (2) DOM4J

特点：高性能，支持 XPath，API 友好。
依赖：需添加 DOM4J 库。
代码示例：

import org.dom4j.*;
import org.dom4j.io.SAXReader;

public class DOM4JExample {
    public static void main(String[] args) throws Exception {
        SAXReader reader = new SAXReader();
        Document doc = reader.read("books.xml");
        
        List<Node> prices = doc.selectNodes("//book/price");
        for (Node node : prices) {
            System.out.println("价格: " + node.getText());
        }
    }
}

# (3) JAXB（Java Architecture for XML Binding）

特点：通过注解将 Java 对象与 XML 绑定。
代码示例：

import javax.xml.bind.*;
import java.io.File;

@XmlRootElement
class Book {
    @XmlElement
    String title;
    @XmlElement
    String author;
}

public class JAXBExample {
    public static void main(String[] args) throws Exception {
        JAXBContext context = JAXBContext.newInstance(Book.class);
        Unmarshaller unmarshaller = context.createUnmarshaller();
        Book book = (Book) unmarshaller.unmarshal(new File("book.xml"));
        System.out.println(book.title);
    }
}

# (4) XStream

特点：将对象序列化为 XML，类似 JSON 库。
依赖：需添加 XStream 库。
代码示例：

import com.thoughtworks.xstream.XStream;

public class XStreamExample {
    public static void main(String[] args) {
        XStream xstream = new XStream();
        xstream.alias("book", Book.class);
        Book book = (Book) xstream.fromXML("<book><title>Java核心</title></book>");
        System.out.println(book.title);
    }
}

# 3. 核心操作对比

库	解析方式	性能	内存占用	适用场景
DOM	树形结构	低	高	小文件，需频繁修改
SAX	事件驱动	高	低	大文件，只读操作
StAX	流式（推/拉）	中	中	流式处理，需部分解析
JDOM	树形结构	中	中	API 简洁，中小文件
DOM4J	树形结构 + XPath	高	中	复杂查询，高性能需求
JAXB	对象绑定	中	中	对象与 XML 映射
XStream	对象序列化	中	中	快速对象与 XML 转换

# 4. 注意事项

XXE 攻击防护：禁用外部实体解析。

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
factory.setFeature("http://apache.org/xml/features/disallow-doctype-decl", true);

命名空间处理：在 DOM 或 SAX 中需显式启用。
```
factory.setNamespaceAware(true);
```
编码一致性：确保读写 XML 时指定编码（如 UTF-8）。
性能优化：
- 大文件优先选择 SAX 或 StAX。
- 频繁查询使用 DOM4J 的 XPath。

# 5. 实战示例：生成 XML

使用 DOM 生成 XML：

import org.w3c.dom.*;
import javax.xml.transform.*;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;

public class GenerateXML {
    public static void main(String[] args) throws Exception {
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
        DocumentBuilder builder = factory.newDocumentBuilder();
        Document doc = builder.newDocument();
        
        Element root = doc.createElement("bookstore");
        doc.appendChild(root);
        
        Element book = doc.createElement("book");
        book.setAttribute("category", "小说");
        root.appendChild(book);
        
        Element title = doc.createElement("title");
        title.setTextContent("活着");
        book.appendChild(title);
        
        // 输出 XML
        Transformer transformer = TransformerFactory.newInstance().newTransformer();
        transformer.setOutputProperty(OutputKeys.INDENT, "yes");
        transformer.transform(new DOMSource(doc), new StreamResult(System.out));
    }
}

# 6. 推荐选择

配置文件解析：DOM 或 DOM4J（API 简洁）。
大数据流处理：SAX 或 StAX。
对象与 XML 映射：JAXB 或 XStream。
高性能复杂操作：DOM4J（支持 XPath 和高效遍历）。

# Linux处理xml

在 Linux 系统中处理 XML 可以通过命令行工具或编程库实现。以下是常用的工具、库及代码示例：

# 一、命令行工具

# 1. `xmlstarlet`

功能：强大的 XML 命令行工具，支持查询、编辑、转换和验证 XML。
安装：

sudo apt-get install xmlstarlet   # Debian/Ubuntu
sudo yum install xmlstarlet       # CentOS/RHEL

常见操作示例：

# 1. 查询 XML 内容（XPath）
xmlstarlet sel -t -v "//book/title" -n books.xml

# 2. 修改 XML 内容（将第一个 price 改为 29.99）
xmlstarlet ed -u "(//book/price)[1]" -v "29.99" books.xml > updated.xml

# 3. 验证 XML 格式
xmlstarlet val books.xml

# 4. 转换为 CSV
xmlstarlet sel -t -m "//book" -v "concat(title, ',', author)" -n books.xml

# 2. `xmllint`

功能：Libxml2 提供的命令行工具，支持验证、格式化和 XPath 查询。
安装：

sudo apt-get install libxml2-utils   # Debian/Ubuntu
sudo yum install libxml2            # CentOS/RHEL

常见操作示例：

# 1. 格式化 XML
xmllint --format books.xml

# 2. 验证 XML（需 DTD 或 XSD）
xmllint --valid --noout books.xml

# 3. XPath 查询
xmllint --xpath "//book/title/text()" books.xml

# 4. 修复不合法 XML（自动修正标签）
xmllint --recover broken.xml

# 3. `xqilla`

功能：支持 XQuery 的 XML 处理工具。
安装：

sudo apt-get install xqilla   # Debian/Ubuntu

示例：

# 查询价格大于 40 的书籍标题
echo "for \$b in //book where \$b/price > 40 return \$b/title" | xqilla -i books.xml

# 二、编程语言库

# 1. Python

库：xml.etree.ElementTree（标准库）或 lxml（第三方库）。
安装：

pip install lxml   # 安装第三方库

代码示例：

# 使用 lxml 解析并查询 XML
from lxml import etree

tree = etree.parse('books.xml')
for book in tree.xpath('//book'):
    title = book.xpath('title/text()')[0]
    price = book.xpath('price/text()')[0]
    print(f"{title}: {price}")

# 2. Perl

模块：XML::LibXML、XML::Simple。
安装：

sudo cpan install XML::LibXML   # 安装模块

代码示例：

use XML::LibXML;

my $parser = XML::LibXML->new();
my $doc = $parser->parse_file('books.xml');
foreach my $node ($doc->findnodes('//book/title')) {
    print $node->textContent . "\n";
}

# 3. Bash 脚本 + 工具

示例：结合 grep/sed（简单场景，不推荐复杂操作）。

# 提取所有 <title> 标签内容（脆弱，仅适用于简单 XML）
grep '<title>' books.xml | sed -e 's/<title>\(.*\)<\/title>/\1/'

# 三、常见操作场景

# 1. 提取数据（XPath）

# 使用 xmlstarlet 提取所有作者
xmlstarlet sel -t -v "//book/author" -n books.xml

# 2. 修改 XML 内容

# 使用 xmlstarlet 添加新元素
xmlstarlet ed -s "//bookstore" -t elem -n "book" -v "" \
              -i "//book[last()]" -t attr -n "category" -v "科技" \
              -s "//book[last()]" -t elem -n "title" -v "AI入门" books.xml

# 3. 转换格式（XML → JSON）

# 使用 xq (yq 的 XML 版本，需安装 python-yq)
sudo apt-get install python3-yq
xq -c '.' books.xml   # 转为 JSON

# 四、工具对比

工具/库	优势	适用场景
xmlstarlet	功能全面，支持增删改查	命令行快速处理 XML
xmllint	验证和格式化，Libxml2 基础工具	格式检查和简单查询
Python lxml	高性能，支持 XPath/XSLT	复杂编程任务
Perl XML::LibXML	Perl 生态集成，XPath 支持	Perl 脚本处理 XML
Bash + 工具	无需安装额外依赖	极简单的文本提取（慎用）

# 五、注意事项

避免用正则处理 XML：XML 是结构化数据，正则容易出错（如处理嵌套标签）。
编码问题：确保 XML 文件保存为 UTF-8，避免乱码。
性能优化：
- 大文件优先使用 xmlstarlet 或 SAX 解析。
- 编程场景选择 lxml（Python）或 StAX（Java）。

通过命令行工具和脚本，Linux 用户可以高效处理 XML 数据，而编程库（如 Python 的 lxml）则适合复杂逻辑和自动化任务。

← Parquet文件 Hadoop →

# xml格式

# xml简介

# 1. XML基本概念

# 2. XML文档结构

# 3. 语法规则

# 4. 核心特性

# 5. 应用场景

# 6. 相关技术

# 7. 示例：图书目录

# 8. 优缺点

# 9. 注意事项

# Python处理xml

# 1. 标准库

# (1) xml.etree.ElementTree (推荐)

# (2) xml.dom.minidom

# (3) xml.sax

# 2. 第三方库

# (1) lxml (推荐)

# (2) xmltodict

# 3. 常见操作总结

# 4. 注意事项

# 5. 实战示例：解析 RSS 订阅

# Java处理xml

# 1. 标准库

# (1) DOM（Document Object Model）

# (2) SAX（Simple API for XML）

# (3) StAX（Streaming API for XML）

# 2. 第三方库

# (1) JDOM

# (2) DOM4J

# (3) JAXB（Java Architecture for XML Binding）

# (4) XStream

# 3. 核心操作对比

# 4. 注意事项

# 5. 实战示例：生成 XML

# 6. 推荐选择

# Linux处理xml

# 一、命令行工具

# 1. xmlstarlet

# 2. xmllint

# 3. xqilla

# 二、编程语言库

# 1. Python

# 2. Perl

# 3. Bash 脚本 + 工具

# 三、常见操作场景

# 1. 提取数据（XPath）

# 2. 修改 XML 内容

# 3. 转换格式（XML → JSON）

# 四、工具对比

# 五、注意事项

# (1) `xml.etree.ElementTree` (推荐)

# (2) `xml.dom.minidom`

# (3) `xml.sax`

# (1) `lxml` (推荐)

# (2) `xmltodict`

# 1. `xmlstarlet`

# 2. `xmllint`

# 3. `xqilla`