音视频 - 小智博客

YOLOv11实时目标检测 | 摄像头视频图片文件检测

在上篇文章中YOLO11环境部署 || 从检测到训练#，我们详细探讨了YOLO11的部署以及推理训练，但是评论区的观众老爷就说了：“博主博主，你这个只能推理只能推理图片，还要将图片放在文件夹下，有没有更简单方便的推理方法？” 有的兄弟，有的，像这样更简单的方法还有10

音视频 2025年04月21日 49 点赞 0 评论 9298 浏览

Deepseek + 即梦，你要的 AI 视频保姆级教程来了

大家好呀，前天写的 Deepseek 写 AI 视频脚本的文章小爆。好多朋友留言问用 Deepseek 脚本怎么去做图做视频。今天我就来分享个保姆级教程。之前提到的 Deepseek出视频脚本教程在这里： [Deepseek 做 AI 视频恐怖如斯！]基于这一批脚本，我们直接开始出图。1、首先需要下载一个即梦，下载链接&#xf

音视频 2025年04月21日 142 点赞 0 评论 16825 浏览

使用opencv优化图片（画面变清晰）

文章目录需求影响照片清晰度的因素实现降噪测试代码锐化空间锐化 Unsharp Masking 频率域锐化对比测试对比度增强常

音视频 2025年04月21日 133 点赞 0 评论 3008 浏览

【OpenCV】入门教学

🏠大家好，我是Yui_💬 🍑如果文章知识点有错误的地方，请指正！和大家一起学习，一起进步👀 🚀如有不懂，可以随时向我提问，我会全力讲解~ 🔥如果感觉博主的文章还不错的话，希望大家关注、点赞、收藏三连支持一下博主哦~！ 🔥你们的支持是我创作的动力！ 🧸我相信现在的努力的艰辛，都是为以后的美好最好的见证！ 🧸人的心态决定姿态！ 💬欢迎讨论：如有疑问或见解，欢迎在评论区留言互动。 👍点赞、收藏与分

音视频 2025年04月21日 51 点赞 0 评论 11586 浏览

使用 FFmpeg 提取音频的详细指南

FFmpeg 是一个开源的多媒体处理工具，支持视频、音频的编码、解码、转换等多种功能。通过 FFmpeg，提取视频中的音频并保存为各种格式非常简单和高效。这在音视频剪辑、媒体处理、转码等场景中具有广泛的应用。本文将详细讲解如何使用 FFmpeg 提取音频，包括常见的音频格式提取、音频质量调整、高级处理操作等。内容浅显易懂，适合初学者快速掌握。

音视频 2025年04月21日 176 点赞 0 评论 15229 浏览

一键提取人声、伴奏免费人声、伴奏音频分离软件分享——UVR5下载安装教程

引言在处理视频及音频编辑的过程中，人声与伴奏的分离是一项广受欢迎且实用的功能， 但是市面上大多人声分离软件都需付费。今天要分享的是Ultimate Vocal Remover 5 (UVR5)，一款跨平台（Windows、Mac、Linux）的专业音频工具。它的核心优势在于其精准的人声与伴奏分离技术。借助先进的AI算法&#xff

音视频 2025年04月21日 64 点赞 0 评论 19654 浏览

香橙派--安装RKMPP、x264、x265、libdrm、FFmpeg（支持rkmpp）以及opencv（支持带rkmpp的ffmpeg）（适用于RK3588平台）

一、opencv的子库 0. 安装RKMPPgit clone cd mpp/build/linux/aarch64 ./make-Makefiles.bash make -j$(nproc) sudo make install RKMPP：用于编解码测试，支持RK3588平台。 1. 安装x264git clone h

音视频 2025年04月21日 167 点赞 0 评论 14060 浏览

OpenCV与AI深度学习｜16个含源码和数据集的计算机视觉实战项目(建议收藏！)

本文来源公众号“OpenCV与AI深度学习”，仅用于学术分享，侵权删，干货满满。原文链接：分享｜16个含源码和数据集的计算机视觉实战项目本文将分享16个含源码和数据集的计算机视觉实战项目。具体包括： 1. 人数统计工具 2. 颜色检测 3. 视频中的对象跟踪 4. 行人检测 5. 手势

音视频 2025年04月21日 112 点赞 0 评论 3582 浏览

CogVideoX - Fun：以 CogVideoX 框架为基，开启无限长 AI 视频生成新时代

目录引言一、CogVideoX-Fun简介二、功能特点三、技术原理四、应用场景结语引言在人工智能的浪潮中，AI视频生成技术正逐渐成为内容创作的新宠。其中，CogVideoX-Fun作为一款基于CogVideoX的整合包，不仅支持从文字到视频的生成，还拓展了视频分辨率的界限，为创作者提供了更广阔的创

音视频 2025年04月21日 52 点赞 0 评论 14613 浏览

LatentSync本地部署教程：一键生成逼真唇形同步视频！

LatentSync是由字节跳动联合北京交通大学开源的一种唇形同步框架。LatentSync基于音频条件构建的潜在扩散模型摒弃了传统方式中必备的中间3D表示以及2D特征点。凭借Stable Diffusion所赋予的超强 “创作力”，它能够敏锐地捕捉到那些错综复杂的视听关联，将无形的音频精准转化为动态鲜活、逼真度极高的说话视频。核心技术：音频条件潜在扩散

音视频 2025年04月21日 144 点赞 0 评论 12284 浏览

音视频

首页

IT互联网

音视频

列表

默认

浏览次数

发布时间