前端&AI技术双周刊-2025.09.05

前端技术

Node.js v24.7.0（Current 版本）发布
新增 Web Cryptography API 完整支持（对齐浏览器标准），引入后量子密码标准（抵御未来量子计算攻击），同时优化异步 I/O 性能，适合对安全性要求高的后端服务（如金融、加密通信场景）。
Rspack 1.5 发布
优化桶文件（barrel file）处理逻辑、升级文件系统监视器（提升热更新速度）、扩展浏览器兼容性（支持 IE 11 部分场景），同时修复多个构建错误，进一步巩固其“快速打包”的核心优势。
字体加载优化：你可能一直在用错误的方式
作者首先讲解网页字体的加载机制（如 FOIT、FOUT 现象），再分享最佳实践：包括 font-display 属性配置、预加载关键字体、字体子集化等，帮助开发者解决字体加载导致的页面卡顿或布局偏移问题。
CSS radial-gradient 圆形边缘平滑化：小众媒体查询的妙用
默认径向渐变生成的圆形边缘易出现锯齿或模糊，通过 @supports (background: paint(any)) 媒体查询适配现代浏览器，结合自定义 paint API 或渐变参数调整，可实现缩放无失真的平滑圆形边缘。
CSS Custom Highlight API：全浏览器兼容的文本高亮方案
Firefox 140 支持 Custom Highlight API 后，实现了全主流浏览器兼容：通过 JS 定义文本范围、CSS 设置高亮样式，适用于页内搜索结果标记、代码编辑器语法高亮等场景，相比传统 span 包裹方案更灵活。
You no longer need JavaScript
盘点纯 HTML 和 CSS 可替代 JS 的场景：如用 scroll-snap 实现轮播、:has() 伪类实现条件样式、CSS Grid 实现复杂布局等，展现原生前端技术的潜力，帮助开发者减少不必要的 JS 依赖。
用 JavaScript Beacon API 实现页面卸载时的可靠请求
详解 Beacon API 的使用场景：该 API 已获所有主流浏览器支持多年，可在页面卸载（如用户关闭标签页）时发送非阻塞请求且确保送达，无需等待响应，适用于日志上报、用户行为统计等场景。
How To Create Custom Types in TypeScript?
如何在 TypeScript 中创建自定义类型？本教程将向你展示如何在 TypeScript 中使用自定义类型，如何通过联合类型与交叉类型将这些类型组合起来，以及如何利用工具类型为自定义类型增加灵活性。教程中会通过不同的代码示例引导你操作。

AI 资讯

百度智能云全面升级百舸 AI 计算平台 5.0、千帆企业级 AI 开发平台 4.0 两大 AI 基础设施
8 月 28 日，2025 百度云智大会在北京举行。大会上，百度智能云全面升级百舸 AI 计算平台 5.0、千帆企业级 AI 开发平台 4.0 两大 AI 基础设施，帮助企业以更低成本、更高效率部署和开发 AI 产品。同时，百度智能云还发布了基于慧播星数字人能力和技术做出的数字员工新成员——“吴彦祖数字英语教练”，以及一见视觉大模型平台的工序合规分析新能力。
字节跳动推出一体化视频生成模型 Waver 1.0
字节新 AI 视频模型 Waver1.0 正式发布，这是一款集多种功能于一体的视频生成模型，具有更强大的能力。Waver1.0 支持文本到视频和图像到视频的转换，为用户提供了一种全新的创作体验。该模型在视频生成的质量和效果上，显著优于现有的开源和闭源模型。
OpenAI：推出为开发者提供的最佳语音转语音模型 GPT-realtime，以及 Realtime API 的更新
OpenAI 发布了首个端到端语音模型 GPT-realtime，以及配套的 Realtime API。据介绍，该模型在理解复杂指令、精准调用工具以及生成自然、富有表现力的语音方面表现突出，并在客户服务、教育、个人助理等多种场景中具备广泛应用潜力。
微软发布开源数学推理模型 rStar2-Agent
微软近日发布了名为 “rStar2-Agent” 的开源模型，这是一个 14B 参数的数学推理模型，通过智能而非冗长的思考，实现了与 671B DeepSeek-R1 相当的性能。该模型通过自主规划、推理和使用代码工具来高效地探索、验证和反思复杂问题的解决方案。其能力依赖于三大创新：GRPO-RoC 算法、可扩展的高效 RL 基础设施，以及从非推理 SFT 开始的 Agent 训练方案。
腾讯开源神器HunyuanWorld-Voyager：单图秒生3D世界
腾讯AI研究团队 Hunyuan 近期动作频频，其最新开源项目 HunyuanWorld-Voyager 引发了全球 AI 与 3D 技术领域的热烈讨论。作为一款具备原生 3D 重建能力的超长程世界模型，HunyuanWorld-Voyager 在 WorldScore 排行榜上荣登榜首，凭借卓越的相机控制、内容对齐和 3D 一致性表现，超越了 Gen-3 等竞品。这款模型为 3D 重建、深度估计及图生 3D 等应用场景带来了革命性突破。
谷歌 Nano Banana 模型走红
近日，谷歌推出的 AI 图形生成与编辑模型“Nano Banana”在网络走红。Nano Banana 可以生成及处理图片，并以对话方式提供相关资讯。其特色包括：根据简单或复杂的文字描述生成高品质图片；提供图片并使用文字提示新增、移除或修改元素、变更风格，或调整色彩分级；使用多张输入图片合成新场景，或将一张图片的风格套用至另一张图片；对话逐步修正图片，进行微调，直到满意为止。
Liquid AI 推出 LFM2-VL 模型，为手机带来「小巧又灵敏」的AI 视觉语言能力
Liquid AI 最新发布了 LFM2-VL 系列视觉语言基础模型（Vision-Language Foundation Models），这标志着多模态 AI 正朝着「精简、快速、可部署在设备端」的方向加速发展。LFM2-VL 扩展自 Liquid AI 之前推出的 LFM2架构，整合了视觉与语言处理能力，支持多分辨率的图片输入，可处理文本与图像，具有极佳的灵活性与兼容性。模型在 GPU 推理速度上实现了高达「两倍」的提升，并且在常见性能评测中表现不凡。
美团自研大语言模型“LongCat”正式开源
9月1日，美团正式发布并开源LongCat-Flash-Chat，这是美团首次正式开源大模型。LongCat-Flash采用创新性混合专家模型（Mixture-of-Experts, MoE）架构，总参数560B，激活参数18.6B-31.3B（平均 27B），实现计算效率与性能的双重优化。
阿里云开源多模态视频生成模型通义万相“Wan2.2-S2V”
阿里云正式开源多模态视频生成模型通义万相“Wan2.2-S2V”，仅需一张静态图片和一段音频，即可生成电影级数字人视频。目前，模型已在通义万相官网上线。
谷歌推全新 Gemini API URL Context 功能
谷歌推出 Gemini API 的 URL Context 功能，让 AI 深度解析网页、PDF 和图像，无需复杂 RAG 流程即可精准提取信息，开发者仅需几行代码就能实现更高效的数据处理。
小红书开源 dots.vlm1：12 亿参数 NaViT 编码器颠覆多模态格局
dots.vlm1 是小红书 hi lab 于 2025 年 8 月发布并开源的多模态大模型，基于 DeepSeek V3 MoE 大语言模型与自研 12 亿参数 NaViT 视觉编码器构建，支持动态分辨率处理和图文联合推理。模型采用三阶段训练流程：视觉编码器预训练阶段使用双重监督策略，VLM 预训练阶段整合跨模态互译与融合数据，后训练阶段通过有监督微调提升泛化能力‌。

拓展阅读

Chrome 内置 AI Web API 的设计思路
谷歌 Chrome 团队成员 Domenic Denicola 分享 AI 功能相关 API 的设计考量：包括如何平衡功能灵活性与安全性、如何适配不同开发者需求（如低代码场景与原生开发）、如何确保 API 向后兼容，展现浏览器功能设计的严谨性。
OKLCH 颜色模式入门：更符合人眼感知的色彩方案
OKLCH 是较新的颜色模式，相比 RGB、HSL 更能精准还原人眼对色彩的感知，支持独立调整亮度、 chroma（色彩浓度）、色相，避免传统模式下调整亮度导致的色彩失真，适合设计无障碍友好的调色板。