Merge pull request #393 from Well2333/captcha

djkcyl · web-flow · commit a30bda8709e5 · 2023-06-27T16:41:58.000+08:00
Solve screenshot mobile captcha
diff --git a/README.md b/README.md
@@ -37,7 +37,7 @@ HarukaBot 针对不同的推送场景（粉丝群、娱乐群、直播通知群
 - [go-cqhttp](https://github.com/Mrs4s/go-cqhttp)：稳定完善的 CQHTTP 实现。
 - [bilibili-API-collect](https://github.com/SocialSisterYi/bilibili-API-collect)：非常详细的 B 站 API 文档。
 - [bilibili_api](https://github.com/Passkou/bilibili_api)：Python 实现的 B 站 API 库。
-- [HarukaBot_Guild_Patch](https://github.com/17TheWord/HarukaBot_Guild_Patch) 可以让HarukaBot适用于频道的补丁。（已合入 HarukaBot）
+- [HarukaBot_Guild_Patch](https://github.com/17TheWord/HarukaBot_Guild_Patch)：可以让HarukaBot适用于频道的补丁。（已合入 HarukaBot）
 
 ## 支持与贡献
 
diff --git a/docs/.vuepress/public/buyServer.gif b/docs/.vuepress/public/buyServer.gif
diff --git a/docs/faq.md b/docs/faq.md
@@ -69,12 +69,10 @@ UID 不是 直播间ID！
 ## Playwright 依赖不全
 
 ::: tip
-Linux 系统下，Playwright 需要安装额外的依赖才能运行 Chromium。目前 Playwright 官方只支持 Ubuntu，因此**强烈推荐**使用 Ubuntu 运行 HarukaBot。非 Ubuntu 系统依赖安装出现问题请去 [Playwright Issues](https://github.com/microsoft/playwright/issues) 寻找解决方法！
+Linux 系统下，Playwright 需要安装额外的依赖才能运行 Chromium。目前 Playwright [官方支持](https://github.com/microsoft/playwright/blob/main/packages/playwright-core/src/server/registry/nativeDeps.ts) Ubuntu LTS(18.04,20.04,22.04) 共三个版本， Debian(11) 共一个版本，因此**仅推荐**使用上述提到四个版本的发行版运行 HarukaBot。非以上发行版依赖安装出现问题请前往 [Playwright Issues](https://github.com/microsoft/playwright/issues) 寻找解决方法！
 :::
 
-Ubuntu：`playwright install-deps`
-
-CentOS（仅供参考）：`yum install -y atk at-spi2-atk cups-libs libxkbcommon libXcomposite libXdamage libXrandr mesa-libgbm gtk3`
+命令：`playwright install-deps`
 
 ## 启动的时候出现 pytz.exceptions.UnknownTimeZoneError: 'Can not find timezone '
 
diff --git a/docs/level-0/ch02.md b/docs/level-0/ch02.md
@@ -23,9 +23,15 @@
 
 :::
 
-在进行阿里云的[账户注册](https://help.aliyun.com/knowledge_detail/37195.html)与[实名](https://help.aliyun.com/document_detail/48263.html)之后，点开阿里云的[开发者成长计划](https://developer.aliyun.com/plan/grow-up)，选择购买轻量应用服务器，地域选择**北上广深**其中一个，镜像类型选择为**系统镜像**，系统镜像选择 `Windows 2012 R2` 选择合适的购买时长后点击立即付款，进行付款购买，完整流程如下。
+::: warning 注意
+
+在下文的系统镜像选择中，Windows版本不得低于 `2016 数据中心` 版本，低于此版本的Windows不再受到HarukaBot支持
+
+:::
+
+在进行阿里云的[账户注册](https://help.aliyun.com/knowledge_detail/37195.html)与[实名](https://help.aliyun.com/document_detail/48263.html)之后，点开阿里云的[开发者成长计划](https://developer.aliyun.com/plan/grow-up)，选择购买轻量应用服务器，地域选择**北上广深**其中一个，镜像类型选择为**系统镜像**，系统镜像选择 `Windows 2016 数据中心版` 选择合适的购买时长后点击立即付款，进行付款购买，完整流程如下。
 
-::: details 为什么我选择购买轻量服务而不是ECS
+::: details 为什么我选择购买轻量应用服务器而不是ECS
 
 选择轻量应用服务器而不选择ECS的原因无他，仅仅是因为对于新手来说，轻量应用服务器更加容易配置。
 
@@ -49,12 +55,6 @@
 2. [VSCode](https://code.visualstudio.com/sha/download?build=stable&os=win32-x64-user)
 3. [go-cqhttp](https://github.com/Mrs4s/go-cqhttp/releases/latest/download/go-cqhttp_windows_amd64.exe)
 
-::: details go-cqhttp下载的太慢了/github被墙了没法下载？
-
-​	[go-cqhttp fastgit加速](https://download.fastgit.org/Mrs4s/go-cqhttp/releases/latest/download/go-cqhttp_windows_amd64.exe)
-
-:::
-
 ## 2.3 你的进度
 
 如果上面的原材料你都准备好了的话，你已经拿到了开启新世界大门的钥匙。那还等什么，让我们快点进入下一章，走进这扇门吧！
diff --git a/docs/level-0/ch03.md b/docs/level-0/ch03.md
@@ -15,7 +15,7 @@
 
 1. 首先先回到阿里云的[主页](https://www.aliyun.com/)，点击右上角的控制台
 2. 选择 `保有资源的云产品` 中刚开通的 `轻量应用服务器`
-3. 在服务器列表内选择你刚开通的 `Windows 2012 R2` 服务器
+3. 在服务器列表内选择你刚开通的 `Windows 2016 数据中心版` 服务器
 4. 进入之后，选择左边 `服务器运维` 下拉框中的 `远程连接` 选项
 5. 点击 `2.通过远程桌面工具连接` 中的 `重置服务器密码` 来设置**mstsc**用的连接密码
 6. 经过一系列的设置密码流程后，选择 `是的，请立即重启服务器` ，记住这一页写的**IP地址和账号**
@@ -29,7 +29,7 @@
 
 1. 首先先回到阿里云的[主页](https://www.aliyun.com/)，点击右上角的控制台![](/ch03-1.jpg)
 2. 选择 `保有资源的云产品` 中刚开通的 `轻量应用服务器`![](/ch03-2.jpg)
-3. 在服务器列表内选择你刚开通的 `Windows 2012 R2` 服务器![](/ch03-3.jpg)
+3. 在服务器列表内选择你刚开通的 `Windows 2016 数据中心版` 服务器![](/ch03-3.jpg)
 4. 进入之后，选择左边 `服务器运维` 下拉框中的 `远程连接` 选项![](/ch03-4.jpg)
 5. 点击 `2.通过远程桌面工具连接` 中的 `重置服务器密码` 来设置**mstsc**用的连接密码![](/ch03-5.jpg)
 6. 经过一系列的设置密码流程后，选择 `是的，请立即重启服务器` ，记住这一页写的**IP地址和账号**![](/ch03-6.jpg)
diff --git a/docs/usage/settings.md b/docs/usage/settings.md
@@ -43,7 +43,7 @@ HARUKA_DIR="./data/"
 在群里使用命令前是否需要 @机器人。设置为 `False` 则可以直接触发指令。
 
 ```json
-Haruka_TO_ME=False
+HARUKA_TO_ME=False
 ```
 
 ## HARUKA_LIVE_OFF_NOTIFY
diff --git a/haruka_bot/config.py b/haruka_bot/config.py
@@ -17,6 +17,7 @@ class Config(BaseSettings):
     haruka_dynamic_interval: int = 0
     haruka_dynamic_at: bool = False
     haruka_screenshot_style: str = "mobile"
+    haruka_captcha_address: str = "https://captcha-cd.ngworks.cn"
     haruka_dynamic_timeout: int = 30
     haruka_dynamic_font_source: str = "system"
     haruka_dynamic_font: Optional[str] = "Noto Sans CJK SC"
diff --git a/haruka_bot/utils/browser.py b/haruka_bot/utils/browser.py
@@ -11,6 +11,7 @@
 
 from ..config import plugin_config
 from .fonts_provider import fill_font
+from .captcha import resolve_captcha
 
 _browser: Optional[Browser] = None
 mobile_js = Path(__file__).parent.joinpath("mobile.js")
@@ -56,11 +57,14 @@ async def get_dynamic_screenshot_mobile(dynamic_id):
     )
     try:
         await page.route(re.compile("^https://static.graiax/fonts/(.+)$"), fill_font)
-        await page.goto(
-            url,
-            wait_until="networkidle",
-            timeout=plugin_config.haruka_dynamic_timeout * 1000,
-        )
+        if plugin_config.haruka_captcha_address:
+            page = await resolve_captcha(url,page)
+        else:
+            await page.goto(
+                url,
+                wait_until="networkidle",
+                timeout=plugin_config.haruka_dynamic_timeout * 1000,
+            )
         # 动态被删除或者进审核了
         if page.url == "https://m.bilibili.com/404":
             return None
diff --git a/haruka_bot/utils/captcha.py b/haruka_bot/utils/captcha.py
@@ -0,0 +1,124 @@
+import contextlib
+from typing import Optional
+
+import httpx
+from nonebot.log import logger
+from playwright._impl._api_structures import Position
+from playwright.async_api import Page, Response
+from pydantic import BaseModel
+from yarl import URL
+
+from ..config import plugin_config
+
+
+class CaptchaData(BaseModel):
+    captcha_id: str
+    points: list[list[int]]
+    rectangles: list[list[int]]
+    yolo_data: list[list[int]]
+    time: int
+
+
+class CaptchaResponse(BaseModel):
+    code: int
+    message: str
+    data: Optional[CaptchaData]
+
+
+async def resolve_captcha(url: str, page: Page) -> Page:
+    captcha_image_body = ""
+    last_captcha_id = ""
+    captcha_result = None
+
+    async def captcha_image_url_callback(response: Response):
+        nonlocal captcha_image_body
+        logger.debug(f"[Captcha] Get captcha image url: {response.url}")
+        captcha_image_body = await response.body()
+
+    async def captcha_result_callback(response: Response):
+        nonlocal captcha_result, last_captcha_id
+        logger.debug(f"[Captcha] Get captcha result: {response.url}")
+        captcha_resp = await response.text()
+        logger.debug(f"[Captcha] Result: {captcha_resp}")
+        if '"result": "success"' in captcha_resp:
+            logger.success("[Captcha] 验证码 Callback 验证成功")
+            captcha_result = True
+        elif '"result": "click"' in captcha_resp:
+            pass
+        else:
+            if last_captcha_id:
+                logger.warning(f"[Captcha] 验证码 Callback 验证失败，正在上报：{last_captcha_id}")
+                async with httpx.AsyncClient() as client:
+                    await client.post(
+                        f"{captcha_baseurl}/report",
+                        json={"captcha_id": last_captcha_id},
+                    )
+                last_captcha_id = ""
+            captcha_result = False
+
+    captcha_address = URL(plugin_config.haruka_captcha_address)
+    page.on(
+        "response",
+        lambda response: captcha_image_url_callback(response)
+        if response.url.startswith("https://static.geetest.com/captcha_v3/")
+        else None,
+    )
+    page.on(
+        "response",
+        lambda response: captcha_result_callback(response)
+        if response.url.startswith("https://api.geetest.com/ajax.php")
+        else None,
+    )
+
+    with contextlib.suppress(TimeoutError):
+        await page.goto(
+            url,
+            wait_until="networkidle",
+            timeout=plugin_config.haruka_dynamic_timeout * 1000,
+        )
+
+    captcha_baseurl = f"{captcha_address.scheme}://{captcha_address.host}:{captcha_address.port}/captcha/select"
+    while captcha_image_body or captcha_result is False:
+        logger.warning("[Captcha] 需要人机验证，正在尝试自动解决验证码")
+        captcha_image = await page.query_selector(".geetest_item_img")
+        assert captcha_image
+        captcha_size = await captcha_image.bounding_box()
+        assert captcha_size
+        origin_image_size = 344, 384
+
+        async with httpx.AsyncClient() as client:
+            captcha_req = await client.post(
+                f"{captcha_baseurl}/bytes",
+                timeout=10,
+                files={"img_file": captcha_image_body},
+            )
+            captcha_req = CaptchaResponse(**captcha_req.json())
+            logger.debug(f"[Captcha] Get Resolve Result: {captcha_req}")
+            assert captcha_req.data
+            last_captcha_id = captcha_req.data.captcha_id
+        if captcha_req.data:
+            click_points: list[list[int]] = captcha_req.data.points
+            logger.warning(f"[Captcha] 识别到 {len(click_points)} 个坐标，正在点击")
+            # 根据原图大小和截图大小计算缩放比例，然后计算出正确的需要点击的位置
+            for point in click_points:
+                real_click_points = {
+                    "x": point[0] * captcha_size["width"] / origin_image_size[0],
+                    "y": point[1] * captcha_size["height"] / origin_image_size[1],
+                }
+                await captcha_image.click(position=Position(**real_click_points))
+                await page.wait_for_timeout(800)
+            captcha_image_body = ""
+            await page.click("text=确认")
+            geetest_up = await page.wait_for_selector(".geetest_up", state="visible")
+            if not geetest_up:
+                logger.warning("[Captcha] 未检测到验证码验证结果，正在重试")
+                continue
+            geetest_result = await geetest_up.text_content()
+            assert geetest_result
+            logger.debug(f"[Captcha] Geetest result: {geetest_result}")
+            if "验证成功" in geetest_result:
+                logger.success("[Captcha] 极验网页 Tip 验证成功")
+            else:
+                logger.warning("[Captcha] 极验验证失败，正在重试")
+
+    return page
diff --git a/haruka_bot/version.py b/haruka_bot/version.py
@@ -1,4 +1,4 @@
 from packaging.version import Version
 
-__version__ = "1.5.4"
+__version__ = "1.6.0"
 VERSION = Version(__version__)