update readme

bigbrother666sh · bigbrother666sh · commit 1321ae1c36d9 · 2024-04-24T21:53:27.000+08:00
diff --git a/README.md b/README.md
@@ -2,17 +2,17 @@
 
 **欢迎使用首席情报官**
 
-首席情报官（wiseflow）是一个完备的领域（行业）信息情报采集与分析系统，该系统面向普通用户开源免费，同时我们提供更加专业的行业情报信息订阅服务，欢迎联系我们获取更多信息。
+首席情报官（wiseflow）是一个完备的领域（行业）信息情报采集与分析系统，该系统面向用户开源免费，同时我们提供更加专业的行业情报信息订阅服务【支持社交网络平台信息获取】，欢迎联系我们获取更多信息。
 
-Email：[zm.zhao@foxmail.com](zm.zhao@foxmail.com) 
+Email：35252986@qq.com 
 
 **首席情报官目前版本主要功能点：**
 
 - 每日关注简报列表
 - 入库文章列表、详情，支持一键翻译（简体中文）
 - 关注点一键搜索（使用搜狗引擎）
 - 关注点一键报告生成（直接生成word文档）
-- 行业情报信息订阅（邮件zm.zhao@foxmail.com联系开通）
+- 行业情报信息订阅【支持指定信源，包括微信公众号、小红书等社交网络平台】（邮件35252986@qq.com联系开通）
 - 数据库管理
 - 支持针对特定站点的自定义爬虫集成，并提供本地定时扫描任务……
 
@@ -22,24 +22,35 @@ Email：[zm.zhao@foxmail.com](zm.zhao@foxmail.com)
 
 ## getting started
 
-我们为普通用户提供了本地运行的client，我们强烈建议使用我们提供的docker镜像，但您也可以使用源码运行。
+首席情报官提供了开箱即用的本地客户端，对于没有二次开发需求的用户可以通过如下简单五个步骤即刻起飞！
+
+1、克隆代码仓
 
 ```commandline
 git clone git@openi.pcl.ac.cn:wiseflow/wiseflow.git
 cd wiseflow/client
 ```
 
-之后参考[client](/client/README.md)
+2、申请开通火山翻译、阿里云dashscope（也支持本地LLM部署）等服务；
+
+3、申请网易有道BCE模型（免费、开源）；
+
+4、参考  /client/env_sample 编辑.env文件;
+
+5、运行 `docker compose up -d` 启动（第一次需要build image，时间较长）
+
+
+详情参考 [client/README.md](client/README.md)
 
 ## SDK & API （coming soon）
 
 我们将很快提供local SDK和subscribe service API服务。
 
-通过local sdk，用户可以无需客户端进行订阅数据同步，并在本地通过python api进行灵活调用，这样wiseflow就可以成为任意RAG系统的数据来源之一。
+通过local sdk，用户可以无需客户端进行订阅数据同步，并在本地通过python api将数据集成至任何系统，**特别适合各类RAG项目**（欢迎合作，邮件联系 35252986@qq.com）！
 
 而subscribe service将使用户可以将订阅数据查询和推送服务嫁接到自己的微信公众号、微信客服、网站以及各类GPTs bot平台上（我们也会发布各平台的插件）。
 
-**wiseflow架构图**
+### wiseflow架构图
 
 ![wiseflow架构图](asset/wiseflow_arch.png)
 
@@ -50,5 +61,6 @@ cd wiseflow/client
 ```
 Author：Wiseflow Team
 https://openi.pcl.ac.cn/wiseflow/wiseflow
+https://github.com/TeamWiseFlow/wiseflow
 Licensed under Apache2.0
 ```
diff --git a/client/README.md b/client/README.md
@@ -1,8 +1,8 @@
 # WiseFlow Client 用户手册
 
-对于普通用户而言，使用WiseFlow客户端非常简便。**如果您是开发者，有二次开发的需要，请进入backend目录、web目录分别查看后端和前端的源代码。**
+对于没有二次开发需求的用户而言，使用WiseFlow客户端非常简便。**如果您是开发者，有二次开发的需要，请进入backend目录、web目录分别查看后端和前端的源代码。也可以联系我们洽谈定制版本合作（35252986@qq.com）**
 
-## 普通用户使用
+## 本地客户端使用
 
 ### 1、参考如下内容创建 `.env `文件 （可以直接编辑 env_sample后再改名）
 
@@ -12,29 +12,39 @@
 - DASHSCOPE_API_KEY="YOUR_DASHSCOPE_API_KEY" #使用阿里灵积大模型推理服务使用
 - ZHIPUAI_API_KEY= #使用智谱大模型接口使用（目前只会调用glm4，model参数没有意义）
 - VOLC_KEY='AK|SK' #使用火山云翻译api使用，格式为AK|SK
-- EMBEDDING_MODEL_PATH='' #embedding模型的地址，
-- RERANKER_MODEL_PATH='' #rerank模型地址
+- EMBEDDING_MODEL_PATH='' #embedding模型的地址，注意需要填写完整的绝对路径
+- RERANKER_MODEL_PATH='' #rerank模型地址，注意需要填写完整的绝对路径
 - DEVICE="cuda:0" #配置的话使用GPU，不配置使用CPU。
-- PB_API_AUTH='email|password' #pb数据库admin的邮箱和密码（一定是admin的，一定给邮箱）
+- PB_API_AUTH='email|password' #pb数据库admin的邮箱和密码（<span style="color: red; font-weight: bold;">首次使用，先想好邮箱和密码，提前填入这里，注意一定是邮箱，可以是虚构的邮箱</span>）
+- PB_API_BASE="web:8090"  #docker配置需要，参考https://stackoverflow.com/questions/70151702/how-to-network-2-separate-docker-containers-to-communicate-with-eachother
 
 **注：上述各服务的申请与开通请参考页面最下方**
 
-### 2、强烈建议普通用户
+### 2、使用docker build image并启动（强烈推荐！）
 
-如何启动项目
-- cd client 
-- 启动项目: docker compose up -d
-- 关闭项目：docker compose down
+```commandline
+git clone git@openi.pcl.ac.cn:wiseflow/wiseflow.git
+cd wiseflow/client
+# 创建.env后
+# 首次使用，先想好邮箱和密码，提前填入PB_API_AUTH，注意一定是邮箱，可以是虚构的邮箱
+docker compose up -d
+```
+
+首次使用build docker image需要大约20~40min，请耐心等待，之后正常使用启动无需等待。
+
+首次使用docker启动后，需要先去管理后台进行配置，此时如果终端出现报错等信息可以先忽略。
+
+**管理配置页面**
 
-### 3、管理配置页面 —— http://127.0.0.1:8090/_/
+浏览器（推荐Chrome）打开 http://127.0.0.1:8090/_/
 
-#### roleplays 表单
+首次使用会在这里提示Admin注册，填入之前写入.env的邮箱和密码。 <span style="color: red; font-weight: bold;">一定要与env一致</span>
 
-在这里可以配置llm的身份信息和关注点，这将直接决定信息发掘和过滤的效果，可以配置多个，但每次只会选择更改时间最新的且activated为true的。
+打开管理后台的roleplays表单，在这里可以配置llm的身份信息和关注点，这将影响信息发掘和整理的效果，同时也影响report的生成风格。
 
-**更改roleplay需要重启服务（最简单的办法是重启下docker 容器）**
+roleplays可以配置多个，但每次只会选择更改时间最新且activated为true的。
 
-roleplay 字段说明：
+**roleplay 字段说明：**
 
 - character 以什么身份挖掘线索（这决定了llm的关注点和立场）
 - focus 关注什么方面的线索
@@ -44,25 +54,81 @@ roleplay 字段说明：
 - bad_samples 规避的线索描述模式
 - report_type 报告类型
 
-#### sites 表单
+填好之后保证activated为true，如果你使用docker desktop或者类似有界面的工具，这个时候可以在container中找到 wiseflow/api, 手动运行它就可以了。
+
+或者在命令行中依次执行
+
+```commandline
+docker compose down
+docker compose up -d
+```
+
+**最后，浏览器打开 http://127.0.0.1:8090 起飞！**
+
+关闭客户端可以通过desktop的界面，也可以在命令行中 执行 `docker compose down`
+
+再次启动项目可以在desktop中运行container，也可以在命令行中执行
+
+```commandline
+cd wiseflow/client 
+docker compose up -d
+```
+
+如果希望能够看到终端里面的动态可以执行 `docker compose up` , 注意，如果需要观察详细的程序执行，记得在.env中开启WS_LOG=verbose
+
+### 3、配置本地定时扫描信息源
+
+wiseflow client内置了通用页面解析器，对于大多数新闻类静态页面可以实现较好的信息解析和提取，如果您有复杂信源扫描需求（比如社交网络信息监控等），可以邮件联系我们开通信息订阅服务（35252986@qq.com）。
 
-通过这个表单可以指定自定义信源，系统会启动后台定时任务，在本地执行信源爬取、解析和分析。
+本地配置信源请首先打开管理后台：http://127.0.0.1:8090/_/ （也可以通过web页面 http://127.0.0.1:8090 下方的 *数据库管理* 链接进入）
+
+打开 **sites表单**
+
+通过这个表单可以指定自定义信源，系统会启动后台定时任务，在本地执行信源扫描、解析和分析。
 
 sites 字段说明：
 
-- url, 信源的url，信源无需给定具体文章页面，给文章列表页面即可，wiseflow client中包含两个通用页面解析器，90%以上的新闻类静态网页都可以很好的获取和解析（我们建议爬取频次不要超过一天一次）。
-- per_hours, 爬取频率，单位为小时，类型为整数（1~24范围）
+- url, 信源的url，信源无需给定具体文章页面，给文章列表页面即可，wiseflow client中包含两个通用页面解析器，90%以上的新闻类静态网页都可以很好的获取和解析。
+- per_hours, 扫描频率，单位为小时，类型为整数（1~24范围，我们建议扫描频次不要超过一天一次，即设定为24）
 - activated, 是否激活。如果关闭则会忽略该信源，关闭后可再次开启。开启和关闭无需重启docker容器，会在下一次定时任务时更新。
 
-注意：
+wiseflow client自定义信源的扫描调度策略是：每小时启动一次，会先看是否有满足频率要求的指定信源，如果没有的话，会看是否集成了专有爬虫，如果有的话，每24小时会运行一遍专有爬虫。
 
-1、wiseflow client自定义信源的爬取调度策略是：每小时启动一次，会先看是否有满足频率要求的指定信源，
+注意：如果使用sites指定信源，专有爬虫也需要配置在这里。
 
-2、虽然wiseflow client中包含的两个通用页面解析器可以适用于绝大多数静态页面的解析，但对于实际业务，我们还是建议客户订阅我们的专业信息推动服务，或者自写专有爬虫。wiseflow client支持客户自定义专有爬虫的集成。
+----------
+虽然wiseflow client中包含的两个通用页面解析器可以适用于绝大多数静态页面的解析，但对于实际业务，我们还是建议客户订阅我们的专业信息服务（支持指定信源），或者自写专有爬虫。wiseflow client支持客户自定义专有爬虫的集成。
 
 专有爬虫的集成说明见 backend/scrapers/README.md
 
-配置专有爬虫后，请单独进行docker build。
+配置专有爬虫后，请重新进行docker build。
+
+## 参考：不使用docker启动（适用于开发者）
+
+首先我们依然强烈建议至少使用docker启动前端和pb（数据库），这个build仅需几分钟，image仅74M。
+
+单独build web（含pb）无需编辑.env，直接执行 
+
+```commandline
+cd wiseflow/client
+docker compose up web
+```
+
+之后编辑.env，然后执行
+
+```commandline
+cd backend
+pip install -U -r requirements.txt
+```
+
+我们建议使用python3.10版本，并使用虚拟环境或者conda创建虚拟环境
+
+backend中提供两个脚本
+
+- backend.sh 启动backend后端服务
+- tasks.sh 启动信源扫描定时任务
+
+backend.sh 启动后可以通过 http://127.0.0.1:7777/docs 查看API详情，并基于此定制开发
 
 ## 参考：各服务注册地址
 
@@ -82,4 +148,4 @@ huggingface-cli download --token hf_*** --resume-download --local-dir-use-symlin
 ```
 
 使用url直接下载时，将 huggingface.co 直接替换为本站域名hf-mirror.com。使用浏览器或者 wget -c、curl -L、aria2c 等命令行方式即可。
-下载需登录的模型需命令行添加 --header hf_*** 参数，token 获取具体参见上文。
+下载需登录的模型需命令行添加 --header hf_*** 参数，token 获取具体参见上文。
diff --git a/client/backend/scrapers/README.md b/client/backend/scrapers/README.md
@@ -5,7 +5,7 @@
 写好爬虫后，将爬虫程序放在这个文件夹，并在__init__.py下的scraper_map中注册爬虫，类似：
 
 ```python
-{'www.securityaffairs.com' :   securityaffairs_scraper}
+{'www.securityaffairs.com': securityaffairs_scraper}
 ```
 
 其中key就是信源地址，value是函数名
@@ -24,10 +24,10 @@
 
 另外，title和content是必须要有的
 
-# 通用爬虫
+# 通用页面解析器
 
-我们这里提供了一个通用爬虫，该爬虫可以智能信源文章列表， 接下来对于每一个文章url，会先尝试使用 gne 进行解析，如果失败的话，再尝试使用llm进行解析。
+我们这里提供了一个通用页面解析器，该解析器可以智能获取信源文章列表，接下来对于每一个文章url，会先尝试使用 gne 进行解析，如果失败的话，再尝试使用llm进行解析。
 
-通过这个方案，可以实现对大多数普通新闻类、门户类信源的爬取。
+通过这个方案，可以实现对大多数普通新闻类、门户类信源的扫描和信息提取。
 
-**然而我们依然强烈建议用户自行写专有爬虫或者委托开发，以实现更加理想且更加高效的爬取。**
+**然而我们依然强烈建议用户自行写专有爬虫或者直接订阅我们的数据服务，以实现更加理想且更加高效的扫描。**
diff --git a/client/env_sample b/client/env_sample
@@ -1,14 +1,13 @@
-#**for local llmp server**
 export DASHSCOPE_API_KEY=""
 export VOLC_KEY="AK|SK"
 
 #**for embeddig model**
-export EMBEDDING_MODEL_PATH="bce-embedding-base_v1"
-export RERANKER_MODEL_PATH="bce-reranker-base_v1"
-export DEVICE="cpu"
+export EMBEDDING_MODEL_PATH="" ##填写完整的绝对路径
+export RERANKER_MODEL_PATH="" ##填写完整的绝对路径
+export DEVICE="cpu" ##cuda用户填写 "cuda:0"
 
 #**for processer**
 export PROJECT_DIR="work_dir"
-export WS_LOG="verbose"
 export PB_API_AUTH="test@example.com|123467890"
-export PB_API_BASE="web:8090"  ##可以参考https://stackoverflow.com/questions/70151702/how-to-network-2-separate-docker-containers-to-communicate-with-eachother
+export PB_API_BASE="web:8090"  ##可以参考https://stackoverflow.com/questions/70151702/how-to-network-2-separate-docker-containers-to-communicate-with-eachother
+export WS_LOG="verbose" ##如果需要详细的log，观察系统的每一步动作填写此项，正常使用无需