重点在于突破 macOS 和 iOS(主要ios,ipone端)的权限限制,实现你要求的**“原生覆盖、实时交互、无感翻译”**。 初步基础项目计划书:全平台原生级实时翻译覆盖系统 (V-Translate) 1. 项目愿景 开发一款在 macOS 和 iOS 上运行的翻译工具,实现“眼镜式”翻译体验: * 原生覆盖:中文直接覆盖在原 App 界面之上,不破坏原 UI 感官。 * 零干扰交互:翻译层不拦截点击、滑动等操作,用户可直接操作原 App。 * 高帧率追踪:在滑动、滚动时,翻译文字需精准跟随,解决重影问题。 * 2. 技术栈建议 * 开发语言:Swift (Native) * OCR 引擎:默认基础Apple Vision Framework (本地离线,0 成本,极速),可在此基础上增添其他服务,或者自定义任何api对接等 * 翻译引擎:默认系统/其他一些基础便宜的翻译服务,可额外自定义其它 API 服务 ,接口自由,完全兼容任何 * 设想基础的框架: * macOS: ScreenCaptureKit (高效流捕获), NSPanel (点击穿透窗口) * iOS: ReplayKit (屏幕广播流), AVPictureInPictureController (悬浮窗绕过限制) 3. 基础核心技术路径 (The "Secret Sauce") A. macOS 实现方案:透明点击穿透层 * 流式捕获:使用 SCStream 获取目标窗口(如 iTerm2)的实时视频流。 * 区域坐标映射:Vision 识别出英文文本的 Bounding Box,并将其坐标系从图像坐标转换为屏幕物理坐标。 * 穿透渲染窗口: * 创建一个 NSPanel 覆盖全屏,设置 level = .mainMenu + 1。 * 设置 ignoresMouseEvents = true,确保所有鼠标点击直接传给底下的 App。 * 在 Panel 上利用 SwiftUI 渲染对应坐标的中文文本块。 B. iOS 实现方案:画中画 (PiP) 黑科技(不推荐但是) * Broadcast Extension:启动一个系统级的屏幕广播进程,获取全系统画面。 * 全屏画中画:利用 iOS 的 Picture-in-Picture 功能,将翻译后的结果渲染成一个视频流,在画中画窗口中播放。 * 坐标锁定:研究如何利用 ReplayKit 的像素位移,在用户滑动屏幕时,实时调整画中画内的文字排版,使其视觉上“贴”在原 App 上。 * 它必须在屏幕最顶层创建一个完全不响应鼠标点击(即点击穿透)的 SwiftUI 窗口。 6. 商业与生态位 * 优势:利用现有的 API 代理业务作为后端支持,App 作为前端流量入口。 管理员、玩外服游戏及使用未汉化专业软件的重度用户或需要与海外长期接触的人 * 核心竞争力:解决市面上所有翻译工具“挡住交互”和“翻译延迟”的致命缺点。