24 releases

0.5.10 Apr 17, 2024
0.5.9 Apr 17, 2023
0.5.8 Nov 23, 2022
0.5.5 Feb 7, 2022
0.5.3 Mar 27, 2021

#15 in #html-parser

Download history 101/week @ 2024-01-08 120/week @ 2024-01-15 47/week @ 2024-01-22 67/week @ 2024-01-29 51/week @ 2024-02-05 71/week @ 2024-02-12 84/week @ 2024-02-19 183/week @ 2024-02-26 528/week @ 2024-03-04 344/week @ 2024-03-11 158/week @ 2024-03-18 266/week @ 2024-03-25 239/week @ 2024-04-01 144/week @ 2024-04-08 329/week @ 2024-04-15 103/week @ 2024-04-22

831 downloads per month
Used in 12 crates (4 directly)

MIT license

265KB
7.5K SLoC

rphtml

一个用 rust 编写的 html 文档解析器,0.4.0 版本前通过 wasm-pack/wasm-bindgen 提供 npm 包。

npm version Build Status codecov

如何使用

use rphtml::parser::{ Doc, ParseOptions, RenderOptions, HResult };
fn main()->HResult{
  let doc = Doc::parse("<div id='content'>rpthml</div>", ParseOptions{
    case_sensitive_tagname: false, // 解析时标签区分大小写,`<div>` 和 `<DIV>` 将被视作不同标签,不建议开启
    allow_self_closing: false, // 允许非替换元素使用自闭合的写法,如 `<div class='' />`
    auto_fix_unclosed_tag: true, // 自动修复没有结束的标签,注意这里只是简单的将标签闭合
    auto_fix_unexpected_endtag: true, // 自动修复不正确的结束标签,如 "<div></p></div>" 会被修复为 "<div></div>"
    auto_fix_unescaped_lt: true, // 自动修复没有实体转译的左尖括号 '<', 比如`<div>a<b</div>`会被修复为`<div>a&lt;b</div>`
  })?;
  // 获取root根节点
  let root = doc.get_root_node();
  let render_html = doc.render(&RenderOptions{
    ..Default::default() // RenderOptions的参数定义可以在wiki中查看
  });
}

License

MIT License.

Dependencies

~0.6–1MB
~26K SLoC