音视频 - 小智博客

基于深度学习的多模态人脸情绪识别研究与实现（视频+图像＋语音）

这是一个结合图像和音频的情绪识别系统，从架构、数据准备、模型实现、训练等。包括数据收集、预处理、模型训练、融合方法、部署优化等全流程。确定完整系统的组成部分：数据收集与处理、模型设计与训练、多模态融合、系统集成、部署优化、用户界面等。详细说明，还要给出详细的代码框架和工具。包括如何处理实时数据流，如何同步音频和视频&#xf

音视频 2025年04月20日 87 点赞 0 评论 14229 浏览

Kimi-Audio音频大模型介绍、本地部署与开发

目录一、模型介绍二、模型部署 1、创建工作空间2、下载模型3、下载依赖4、下载模型库 5、下载glm4_tokenizer6、代码编程修改4 月 26 日，Moonshot AI正式宣布推出Kimi-Audio，一款全新的开源音频基础模型，旨在推动音频理解、生成和交互领域的技术进步。这一发布引发了全球AI社区的广泛关注，被认为是多模态AI发展

音视频 2025年05月18日 107 点赞 0 评论 14241 浏览

AI视频生成模型从无到有：构建、实现与调试完全指南

文章目录 **引言：从理论到实践的跃迁** **第一部分：理论基石——视频生成模型的核心思想** **第二部分：开发环境搭建与工具链** **第三部分：亲手构建一个简易视频生成模型** **第四部分：系统调试与效果评估** **第五部分：模型优化与进阶探索** **第六部分：从玩具到应用—

音视频 2026年02月14日 159 点赞 0 评论 14252 浏览

最完整whisperX入门指南：从安装到实现第一个语音识别功能

最完整whisperX入门指南：从安装到实现第一个语音识别功能【免费下载链接】whisperX m-bain/whisperX: 是一个用于实现语音识别和语音合成的 JavaScript 库。适合在需要进行语音识别和语音合成的网页中使用。特点是提供了一种简单、易用的 API，支持多种语音识别和语音合成引擎，并且能够自定义语音识别和语音合成的行为。

音视频 2026年03月05日 48 点赞 0 评论 14266 浏览

计算机视觉-OpenCV项目学习实践学习笔记-04

图像阈值使用函数及相关参数ret,dst = cv2.threshold(src,thresh,maxval,type) ret,thresh1 = cv2.threshold(img_1,127,255,cv2.THRESH_BINARY) ret：表示实际输入的阈值，对应的就是函数里的thresh。例中thresh = 127&#xff

音视频 2025年09月07日 195 点赞 0 评论 14277 浏览

HunyuanVideo-Foley新闻制作：快速为突发新闻视频配现场音

HunyuanVideo-Foley新闻制作：快速为突发新闻视频配现场音1. 技术背景与应用场景在新闻制作领域，尤其是突发新闻报道中，时间就是生命。记者和编辑往往需要在极短时间内完成视频剪辑、字幕添加以及音效合成等流程，以确保信息第一时间传递给观众。然而，传统音效制作依赖人工手动匹配环境声、动作声和背景音，不仅耗时

音视频 2026年01月23日 178 点赞 0 评论 14280 浏览

人工智能训练师——智能语音识别ASR

人机对话——ASR概念ASR（Automatic Speech Recognition，自动语音识别）是一种将人类语音转换为文本的技术。它使得计算机能够“听”懂人类的语音指令或对话，并将其转换成可读、可编辑的文本形式。ASR技术是人机交互领域中的一个重要分支，广泛应用于各种智能设备和服务中。两大组成部分ASR（Au

音视频 2025年08月06日 196 点赞 0 评论 14280 浏览

C# 基于OpenCv的视觉工作流-章27-图像分割

C# 基于OpenCv的视觉工作流-章27-图像分割本章目标： 一、理论概念； 二、图像处理； 三、设置背景图； 四、设置前景图； 五、计算边缘图； 六、构建标识图； 七、图像分割； 一、理论概念； 详细见文末链接二、图像处理； 对图像进行转灰度图、

音视频 2026年03月05日 35 点赞 0 评论 14321 浏览

计算机视觉cv2入门之实时手势检测

前边我们已经讲解了使用cv2进行图像预处理以及针对实时视频流文件的操作方法，这里我们通过实时手势检测这一案例来学习和实操一下。大致思路根据手势的种类以及指定手势图片数量来构建一个自己的手势图片数据集 CNN模型训练手势图片数据集使用训练好的模型进行实时预测手势图片数据集的构建经典的手势图片数据集有很多，但是都比较大，下

音视频 2025年05月26日 140 点赞 0 评论 14397 浏览

CogVideoX - Fun：以 CogVideoX 框架为基，开启无限长 AI 视频生成新时代

目录引言一、CogVideoX-Fun简介二、功能特点三、技术原理四、应用场景结语引言在人工智能的浪潮中，AI视频生成技术正逐渐成为内容创作的新宠。其中，CogVideoX-Fun作为一款基于CogVideoX的整合包，不仅支持从文字到视频的生成，还拓展了视频分辨率的界限，为创作者提供了更广阔的创

音视频 2025年04月21日 52 点赞 0 评论 14401 浏览

音视频

首页

IT互联网

音视频

列表

默认

浏览次数

发布时间