Skip to content

Commit

Permalink
Docs: 1. improve document
Browse files Browse the repository at this point in the history
  • Loading branch information
platonai committed Apr 22, 2024
1 parent fc14622 commit e228a73
Showing 1 changed file with 13 additions and 13 deletions.
26 changes: 13 additions & 13 deletions README-CN.md
Original file line number Diff line number Diff line change
Expand Up @@ -29,6 +29,19 @@ PulsarRPA 是一款高性能、分布式、开源的机器人流程自动化(R

综上所述,PulsarRPA 凭借其网页内容理解、智能抓取、先进 DOM 解析、分布式处理及开源特性,成为大规模网页数据提取首选的开源解决方案。其独特的技术组合使用户能够有效应对与大规模提取宝贵网页数据相关的复杂性和挑战,最终推动更明智的决策制定和竞争优势。

### *大批量*站点的数据提取可以使用自动化提取技术:

```kotlin
val document = session.harvest("https://www.eeo.com.cn/2024/0330/648712.shtml")

println(document.contentTitle)
println(document.textContent)
```

示例代码: [kotlin](/pulsar-app/pulsar-examples/src/main/kotlin/ai/platon/pulsar/examples/sites/article/EEO.kt).

在这个案例中,我们使用流行的 biolerpipe 技术来自动提取新闻网页。在 PulsarRPAPro 中,我们支持更加智能的数据提取技术,来自动提取各种各样的网页,譬如商品详情页。

### 大多数抓取尝试可以从几乎一行代码开始:

*Kotlin:*
Expand Down Expand Up @@ -93,19 +106,6 @@ session.load(url, options)

示例代码: [kotlin](/pulsar-app/pulsar-examples/src/main/kotlin/ai/platon/pulsar/examples/sites/food/dianping/RestaurantCrawler.kt).

### *大批量*站点的数据提取可以使用自动化提取技术:

```kotlin
val document = session.harvest("https://www.eeo.com.cn/2024/0330/648712.shtml")

println(document.contentTitle)
println(document.textContent)
```

示例代码: [kotlin](/pulsar-app/pulsar-examples/src/main/kotlin/ai/platon/pulsar/examples/sites/article/EEO.kt).

在这个案例中,我们使用流行的 biolerpipe 技术来自动提取新闻网页。在 PulsarRPAPro 中,我们支持更加智能的数据提取技术,来自动提取各种各样的网页,譬如商品详情页。

### *最复杂* 的 Web 数据抽取难题需要用 X-SQL 来解决:

在很多情况下,您可能仍然需要使用基于规则的数据提取技术。X-SQL 被设计来描述和管理最复杂的数据提取规则。
Expand Down

0 comments on commit e228a73

Please sign in to comment.