File tree Expand file tree Collapse file tree 1 file changed +13
-13
lines changed Expand file tree Collapse file tree 1 file changed +13
-13
lines changed Original file line number Diff line number Diff line change @@ -29,6 +29,19 @@ PulsarRPA 是一款高性能、分布式、开源的机器人流程自动化(R
29
29
30
30
综上所述,PulsarRPA 凭借其网页内容理解、智能抓取、先进 DOM 解析、分布式处理及开源特性,成为大规模网页数据提取首选的开源解决方案。其独特的技术组合使用户能够有效应对与大规模提取宝贵网页数据相关的复杂性和挑战,最终推动更明智的决策制定和竞争优势。
31
31
32
+ ### * 大批量* 站点的数据提取可以使用自动化提取技术:
33
+
34
+ ``` kotlin
35
+ val document = session.harvest(" https://www.eeo.com.cn/2024/0330/648712.shtml" )
36
+
37
+ println (document.contentTitle)
38
+ println (document.textContent)
39
+ ```
40
+
41
+ 示例代码: [ kotlin] ( /pulsar-app/pulsar-examples/src/main/kotlin/ai/platon/pulsar/examples/sites/article/EEO.kt ) .
42
+
43
+ 在这个案例中,我们使用流行的 biolerpipe 技术来自动提取新闻网页。在 PulsarRPAPro 中,我们支持更加智能的数据提取技术,来自动提取各种各样的网页,譬如商品详情页。
44
+
32
45
### 大多数抓取尝试可以从几乎一行代码开始:
33
46
34
47
* Kotlin:*
@@ -93,19 +106,6 @@ session.load(url, options)
93
106
94
107
示例代码: [ kotlin] ( /pulsar-app/pulsar-examples/src/main/kotlin/ai/platon/pulsar/examples/sites/food/dianping/RestaurantCrawler.kt ) .
95
108
96
- ### * 大批量* 站点的数据提取可以使用自动化提取技术:
97
-
98
- ``` kotlin
99
- val document = session.harvest(" https://www.eeo.com.cn/2024/0330/648712.shtml" )
100
-
101
- println (document.contentTitle)
102
- println (document.textContent)
103
- ```
104
-
105
- 示例代码: [ kotlin] ( /pulsar-app/pulsar-examples/src/main/kotlin/ai/platon/pulsar/examples/sites/article/EEO.kt ) .
106
-
107
- 在这个案例中,我们使用流行的 biolerpipe 技术来自动提取新闻网页。在 PulsarRPAPro 中,我们支持更加智能的数据提取技术,来自动提取各种各样的网页,譬如商品详情页。
108
-
109
109
### * 最复杂* 的 Web 数据抽取难题需要用 X-SQL 来解决:
110
110
111
111
在很多情况下,您可能仍然需要使用基于规则的数据提取技术。X-SQL 被设计来描述和管理最复杂的数据提取规则。
You can’t perform that action at this time.
0 commit comments