音视频 - 小智博客

【视频生成模型】通义万相Wan2.1模型本地部署和LoRA微调

目录 1 简介 2 本地部署 2.1 配置环境 2.2 下载模型 3 文生视频 3.1 运行命令 3.2 生成结果 4 图生视频 4.1 运行命令 4.2 生成结果 5 首尾帧生成视频 5.1 运行命令 5.2 生成结果 6 提示词扩展 7 LoRA微调 1 简介通义万相 2.1 在 2025 年 1 月推出，

音视频 2025年05月18日 113 点赞 0 评论 15167 浏览

2025年 GitHub 主流开源视频生成模型介绍

Wan 2.1：阿里开源的AI视频生成大模型Wan2.1 是阿里巴巴开源的高性能视频生成模型，凭借技术创新和易用性成为当前AI视频生成领域的标杆工具。其核心特点如下： SOTA性能表现 Wan2.1 在权威评测榜单VBench中以86.2分综合成绩稳居第一，尤其在视频质量（86.67）、语义理解（

音视频 2026年02月21日 125 点赞 0 评论 15113 浏览

B站视频秒转文字，开源神器bili2text

引言在信息爆炸的时代，视频内容已成为知识传播和娱乐的重要载体。Bilibili作为中国领先的视频分享平台，汇聚了海量的教育、娱乐和专业内容。然而，将视频中的语音内容高效转换为可编辑、可搜索的文本，仍然是内容创作者、教育工作者和研究人员面临的挑战。bili2text 是一个开源工具，旨在通过自动化流程实现Bilibili视频到文本

音视频 2025年11月02日 63 点赞 0 评论 15107 浏览

FramePack V2版 - 支持首尾帧生成，支持LoRA，支持批量，支持50系显卡，一个强大的AI视频生成软件本地一键整合包下载

FramePack 是斯坦福大学主导开发的视频生成框架，是一种用于视频生成的下一帧（下一帧部分）预测神经网络结构，可以逐步生成视频。FramePack 主要开发者之一，就是业内大名鼎鼎的张吕敏大佬，AI领域的“赛博佛祖”，ControlNet的作者，站内也发布了他的很多项目一键包。 F

音视频 2025年05月18日 72 点赞 0 评论 15076 浏览

人工智能：计算机视觉的基础与应用

第十二篇：计算机视觉的基础与应用学习目标💡 理解计算机视觉的基本概念和重要性 💡 掌握计算机视觉中的图像处理技术、特征提取方法、常用模型与架构 💡 学会使用计算机视觉库（OpenCV、PIL、PyTorch、TensorFlow）进行图像处理、特征提取和模型训练 💡 理解图像分类、目标检测

音视频 2026年03月04日 104 点赞 0 评论 15020 浏览

《计算机视觉：模型、学习和推理》第 7 章-复杂数据密度建模

目录前言7.1 正态分类模型核心概念完整代码 + 可视化运行效果7.2 隐变量核心概念通俗比喻7.3 期望最大化（EM）核心概念流程图核心逻辑7.4 混合高斯模型（GMM）核心概念7.4.1 混合高斯边缘化7.4.2 基于 EM 的混合模型拟合完整代码 + 可视化（对比单高斯 vs GMM&#xf

音视频 2026年03月04日 152 点赞 0 评论 14999 浏览

使用 FFmpeg 提取音频的详细指南

FFmpeg 是一个开源的多媒体处理工具，支持视频、音频的编码、解码、转换等多种功能。通过 FFmpeg，提取视频中的音频并保存为各种格式非常简单和高效。这在音视频剪辑、媒体处理、转码等场景中具有广泛的应用。本文将详细讲解如何使用 FFmpeg 提取音频，包括常见的音频格式提取、音频质量调整、高级处理操作等。内容浅显易懂，适合初学者快速掌握。

音视频 2025年04月21日 176 点赞 0 评论 14997 浏览

YOLOv8基于视频的帧图像识别与目标检测实战：从项目文件结构开始到多场景应用的解析（文章包括完整代码以及演示视频和结果视频）

YOLOv8视频目标检测项目解析目录 YOLOv8视频目标检测项目解析目录效果预览项目文件结构项目简介代码详细解析 1. 环境配置和依赖导入 2. 模型加载和视频读取 3. 视频处理流程 4. 结果保存与显示应用场景项目特点使用说明效果预览原始视频： test 效果视频： result 项目文件结构YOL

音视频 2025年10月06日 188 点赞 0 评论 14993 浏览

《计算机视觉：模型、学习和推理》第 2 章-概率概述

目录2.1 随机变量核心概念代码实现 + 可视化效果说明2.2 联合概率核心概念代码实现 + 可视化（图像双特征联合分布）效果说明2.3 边缘化核心概念代码实现 + 可视化（图像特征边缘化）效果说明2.4 条件概率核心概念代码实现 + 可视化（图像条件概率对比）效果说明2.5 贝叶斯

音视频 2026年02月26日 87 点赞 0 评论 14934 浏览

眼在手上外参标定保姆级教学---离线手眼标定（vscode + opencv）

手眼标定的本质就是记录多组数据。每组数据需记录两个关键信息： 相机拍摄的标定板图像拍摄该图像时机械臂末端执行器在基坐标系下的位姿（Xt,Yt,Zt, Rx,Ry,Rz）。然后用这些大概20组数据，通过一些算法去变换出相机与末端执行器之间的变换矩阵所以也可以不用配置那么复杂的环境，直接在实验室中拖动机械臂本体，然

音视频 2026年03月05日 155 点赞 0 评论 14900 浏览

音视频

首页

IT互联网

音视频

列表

默认

浏览次数

发布时间