如何处理声音文件

如何处理声音文件

一、怎样处理声音文件(论文文献综述)

陈敏[1](2021)在《声音控制及处理方法在FLASH动画制作中的应用研究》文中研究指明FLASH动画设计期间,需对声音控制与处理的方式加以合理化设计,进而改善音频质量。但是在处理过程中,其操作相对较为烦琐,若处理时图层或是关键帧的处理不正确,会影响声音播放的效果。基于此,文章将FLASH动画制作作为主要研究对象,重点阐述声音控制和处理方法,希望有所帮助。

查尔顿·佩特斯,余书华[2](2021)在《脱身策略》文中指出一家着名医药科技公司创始人乔丹·帕里什拥有一个美满的家庭,然而,看似成功的人生其实早已千疮百孔。乔丹觉得自己山穷水尽,心力交瘁的他只想着早日逃离现实。乔丹的心理医生罗森给了他一个电话号码,告诉他这是一条不能回头的路。绝望的乔丹拨通了电话,随后被自称是"脱身策略公司"的人带走。这家公司专门帮助那些想要摆脱现有生活,在世界的另一处改头换面、重新生活的人。他们制造了乔丹遭遇车祸死亡的假象,乔丹的家人获得了一笔赔偿金,接受了这个事实。但是乔丹很快就后悔了,他不愿以这种狼狈的方式退出原来的生活。想念家人的他希望回归家庭,但脱身策略公司的人强行将乔丹送到日本,严格监视他的生活。乔丹无意中发现以前的同事兼好友亚历克斯与脱身策略公司有过联系。难道这一切都是圈套?

肖科[3](2021)在《基于深度学习的声音识别分类系统》文中指出声音无处不在,人听到声音后,不断地有意识地或潜意识地处理和理解这些音频,从而向我们提供有关周围环境的信息。智能环境声音分类是在众多实际应用中不断发展的研究领域。尽管在音频领域(例如语音和音乐)进行了大量研究,但对环境中的声音进行分类的工作相对较少。而利用深度学习对声音图像化处理后的分类还未出现,这就引出了利用卷积神经网络对随着时间而发生的离散声音信号进行分类的研究。本研究是将深度学习技术应用于环境中声音的分类,使用深度学习技术对生活中的声音进行分类。当给出持续几秒钟的计算机可读格式(例如.wav文件)的音频样本时,希望能够确定它是否是数据集中声音之一以及相应的似然评分。相反,如果未检测到目标声音,我们将获得一个未知分数。主要研究内容如下:(1)声音分类的意义以及在现实中应用声音作为一种携带信息的载体,是人类社会中无法缺少的元素,它包含在人类生活的方方面面。虽然人耳能够有效的识别部分声音,但在更复杂的情况下,其能力是有限的,于是就需要智能的声音分类系统来协助人类识别声音,以达到某些目的。当前,对声音识别分类的应用需求是非常多的,例如协助聋哑人的日常活动、能够内外识别声音的汽车、机器预测性维护,这些应用将有助于改善人们的生活提高人们的工作效率。(2)研究深度学习技术中的卷积神经网络(CNN)对声音图像化处理后的图像进行高精度和大规模分类本课题使用深度学习中CNN技术对生活环境中的声音进行分类,根据需求对采集到的声音数据集进行图像化,然后对声音图像每一帧声音数据进行预处理,以及用梅尔频谱倒谱系数(MFCC)来提取训练模型所需的声音特征,将这些有特征标签的数据集进行分割处理,并将分类标签一起存储在Panda中的Dataframe中,然后再将数据集放入到所建立的声音分类模型中进行训练。(3)优化了声音分类精确度的算法声音分类模型的建立中,涉及到深度学习算法的应用,而一般的基准算法不能达到相应的精度要求,需要在相应模型中进行算法的改进来达到提高识别精度的要求,本文在五种基准模型算法(决策树、KNN、随机森林、支持向量机以及多数投票算法)的基础上,通过改进MLP(多层感知器)模型和CNN(卷积神经网络)模型,将其中的层级结构、特征参数以及每层的模型的节点数等进行优化,创建一个有较高分类精度的声音识别系统。(4)系统测试及算法比较分析研究将8733个时长为几秒钟的.wav文件输入到优化的声音识别分类系统中,系统能够将输入的声音与模型中学习的声音精确匹配,对每一种声音都会给出一个评分,评分最高声音类别即是目标声音的类别。同时将样本声音用上述五种算法以及改进的MLP和CNN模型继续训练,五种基准算法中识别精度最高是SVM为68%,识别精度在改进MLP和CNN模型上分别达到了88%和92%,并在汽车发动机的故障分析上得到了有效的应用。

李行健[4](2021)在《用于声音分类的Deep LightGBM算法研究及嵌入式实现》文中研究指明声音分类是机器学习领域的一个重要分支,一般将它细分为环境声分类,人声分类、音乐分类三个大类。近年来随着DCASE等比赛的举办,也让越来越多的学者开始重视这一领域的研究。目前这项技术在医疗诊断、场景分析、声者识别、生态环境分析等场景中都被广泛使用。传统声音分类方法主要使用神经网络来实现,虽然它们的准确性不断提高,但是这种方式目前还有两个问题。首先是在数据的预处理方面,使用神经网络进行声音分类任务一般要先将声音文件提取成声谱图,从而把声音分类任务转换成图片分类。这种方式在处理大样本数据集时,转化后的图片数据集会很大,从而需要庞大的存储空间以及很高的计算性能来处理。其次,若没有足够的数据,使用神经网络训练时很容易产生过拟合,并且需要进行大量的参数调整、模型设置,这些步骤十分繁琐导致获得最好效果模型的时间成本非常高。基于以上两点不足,本文提出了新模型Deep LightGBM。它是基于深度森林思想改进的LightGBM深度学习模型,有效的提升了分类的准确性以及泛化能力,同时保证了模型的简洁,减少了算法对参数依赖程度,从而大幅降低了训练模型的时间成本。并且因为使用向量法来提取数据特征,不仅降低了所需存储空间,而且也加快了模型的训练速度。在公开的环境声分类数据集Urban Sound8K上进行算法验证,当使用向量法来提取声音特征时,新模型准确性达到了95.84%。将CNN提取的特征与向量法特征融合后再用新模型进行训练,准确率达到了97.67%。实验结果表明采用合适的声音特征提取方法配合Deep LightGBM模型参数易于调整、准确性高且不会产生过拟合。在多个其它类型的声音分类数据集上进行了泛化性能验证,分类准确性表现都很好。同时本文也将训练好的模型在嵌入式平台ZCU102上做了模型算法的迁移,在PS端对模型进行了优化,使用C++实现并做了针对性的代码改进,最终的预测算法运行时间低于PC,并且分类准确性保持一致;在PL端针对算法实现的关键步骤——LightGBM模型的读取和预测,基于Vitis和Vivado软件设计了相应的加速IP并且也设计了PS与PL通信的高速AXI通信模块。

郝浩志[5](2021)在《基于Arduino与MFC的点读数位笔研究》文中进行了进一步梳理随着信息技术在人类生活中的逐渐渗透,互联网科技与教育领域结合的越来越紧密。点读笔和数位笔是互联网技术在教育领域的两个具体体现。点读笔“即点即发音”的功能大大方便了学生的学习与练习;数位笔可随时随地在数位板上进行写画的功能使得使用者不再局限于传统意义的纸笔作画。由于这两款学习工具的受用人群有很大的交集,因此本文将设计一款既可以点读又方便作画的点读数位作为主要的研究内容。本文对点读数位笔做了设计和研究。意在设计一款既可以方便人们通过点读来学习外语,同时又方便使用者在电脑上作画的点读数位笔。由于实验条件的限制,本文对点读数位笔进行了分模块研究,分别对其点读图书和绘画这两个功能模块进行了学习和研究。在点读模块,本文着重对点读所需的声音文件合成系统进行了设计和研究,在学习MFC编程的基础上设计生成了一个声音文件合成系统界面,使用者只需按照界面提示进行简单的操作,便可制作出声音文件,供点读使用,本文借助市面上的点读笔对合成的声音文件进行了验证;在绘画模块,本文设计了一款基于Arduino Mega2560的绘画设备,该模块分为画笔端和电脑端两个部分,通过两对HC-12模块分别将画笔端的横纵坐标信号和压力信号发送到电脑端,完成作画。本文中,点读模块设计的声音文件合成系统使得用户可以对任意图书进行点读学习;绘画模块实现了用户利用实体笔在电脑上作画的过程。点读数位笔将点读和绘画功能集于一体,极大地方便了使用者的学习。

王亚文[6](2021)在《基于神经网络的环境声音识别算法研究》文中研究表明环境声音识别(Environment sound recognition)是指让计算机设备以一定的算法方式对采集到的环境声音进行分类与处理的过程,其在智能机器人、移动设备监测、自动驾驶、环境安全监控、智能家居、智慧城市等领域都有广泛的应用前景,是计算机听觉(Computer Audition)领域重要的研究方向之一。环境声音分类和增强是声音识别领域重要的研究内容。随着人工智能技术的不断发展,神经网络逐渐成为了该领域的重要研究方法。与传统的机器学习方法相比,神经网络方法具有算法模型简单、泛化效果好、鲁棒性强、可迁移性强等优势。但分类算法仍存在识别精度低、对设备性能要求高的问题;增强算法也主要面向语音增强、乐器声音分离等场景,环境声音增强算法仍不成熟。围绕以上存在的问题,本文有下面的主要研究内容:首先,通过bottleneck模块改进CNN以降低网络参数量和运算量;通过引入SE注意力机制模型以提高网络精度。论文中设计了用于环境声音分类的BN-CNN、SE-CNN small 和 SE-CNN large 神经网络模型。然后,对于不同的分类结果选用不同的增强网络以进行声音增强处理。本文基于生成对抗网络(GAN)的方法进行了声音增强的算法研究,通过引入encoder-decoder的直连接结构提高生成网络的性能;通过引入噪声向量z提高了网络的鲁棒性。该网络可通过重新训练实现对其他类别环境声音增强的扩展。接下来,由于目前开源声音数据集不适合做环境声音增强,论文创建了 ESCS数据集。该数据集包含两个子数据集,分别用于声音分类(12个小类,5个大类)和声音增强(10个小类,包含带噪和不带噪版本)的算法研究,共包含14.6万条44.1KHz采样、8bit量化、8s时长的环境声音样本。同时该数据集提供原始数据可根据需要自行处理。在该数据集下,声音分类的细分类F1精度最高提升4.90%,粗分类F1精度最高提升3.46%,运算量最多降低26.08%,参数量最多降低79.05%;通过生成网络和判别网络相互对抗训练的方法,在十种不同的环境声音上FID指标最好为0.218;AMT指标最高均值为8.12,均获得了良好的环境声音增强效果。最后设计并实现了可视化的环境声音识别软件。该软件使用tkinter、librosa、pyaudio等python库,由输入模块、信号预处理模块、声音识别模块、声音增强模块、输出显示模块构成,实现了环境声音分类和声音增强的功能。

刘笑男[7](2021)在《基于智能手机传感器的液体剩余量检测技术研究》文中指出现如今,随着人们的生活压力和工作压力的不断提高,人们的健康问题日益凸显,据统计数据显示中国人民约70%的人处于亚健康状态,因此关注自身健康变得愈发重要。目前健康管理的理念逐渐走进人们视野,并且健康管理的国内市场也逐步火热。健康管理中比较重要的一部分就是营养摄入平衡,而人体每日所需营养中通过液体摄入的不占少数,例如水,维生素,蛋白质等,因此液体检测技术作为营养监测的一种途径显得尤为重要。液体检测技术可以通过检测液体剩余量来帮助人们检测牛奶、果汁、水等液体的摄入情况,为后续的健康管理与商家精准推荐提供相关支持。本文研究基于智能手机传感器,针对如何检测桶装牛奶剩余量这一液体检测问题,提出了一套有效可行的系统,我们称之为DeMilk。DeMilk的核心思想是通过识别桶装牛奶左右晃动声音的不同,从而达到检测桶装牛奶剩余量的目的。DeMilk通过以下4个模块来实现:(1)数据的采集。采集桶装牛奶不同剩余量的晃动声音数据,并通过线性加速度计和陀螺仪来规范晃动牛奶的姿态,随后进行数据分割,数据降噪的预处理;(2)特征的提取。从每一个样本数据中提取相应的特征;(3)特征的筛选。通过不同的方法对提取的特征进行筛选;(4)模型的训练。基于采集的数据集以及筛选得到的最优特征集进行模型的训练。本文主要创新点以及研究成果如下:(1)本文研究首次通过融合智能手机线性加速度计、陀螺仪和麦克风传感器来检测液体剩余量。(2)本文研究一共提取26个特征用于检测液体剩余量。特征提取分别基于短时傅里叶变换,短时平均过零率,频谱质心,小波变换,梅尔频率倒谱系数和音符起始点检测6个方面。(3)本文研究训练生成的支持向量机模型效果最优,其准确率达0.9240,F1分数为0.9208,AUC值为0.9857。(4)本文将整个DeMilk系统实现为一个Android应用程序。

常雪姣[8](2021)在《基于深度神经网络的人声分离算法的研究与应用》文中指出近年来,有关盲源分离的研究越来越多,盲源分离也被应用到生产生活的方方面面。从1953年Colin Cherry提出的“鸡尾酒会问题”,到如今基于神经网络的语音分离算法模型,盲源分离技术也在逐步向更广更深的方向发展。在本文中,作者将选取音乐场景,提取其中的人声信号。目前,已有包括全连接神经网络、卷积自编码器和循环神经网络在内的人声分离模型算法。本文基于卷积自编码器人声分离模型进行改进,提出了基于全卷积神经网络的人声分离模型,简称WAVEUNET。WAVEUNET首先通过傅里叶变换将混合信号的时间序列转换为时频图,随后,将生成的时频图经过分离模型分离出人声信号的时频掩膜,而伴奏信号的时频掩膜则通过混合音频减去人声时频掩膜得到。最后将时频掩膜乘以时频图,得到分离后的人声信号频谱和伴奏声音频谱,再利用逆傅里叶变换得到分离后的人声和伴奏声音。其中分离模型应用了UNET网络的特点,在相同深度的编码器和解码器之间增加一个融合层,减少原本模型池化过程中损失的数据。最后,本文通过实验,从多个方面验证WAVEUNET的分离性能。在不同训练目标,即理想二值掩膜和理想浮值掩膜影响下,理想浮值掩膜的分离性能将优于理想二值掩膜。其次,同等层深情况下,WAVEUNET具备更好的分离效果,不同层深情况下,自编码器网络随着层深增加预测能力下降,WAVEUNET随着层深增加预测能力增加。WAVEUNET的分离性能与目前已有的人声分离模型算法对比,体现出较好的分离水准,并与此同时,表现出模型简单、速度快、权重数目少等优点。

劳拉·格里芬,刘文霞[9](2021)在《深黑》文中研究指明一天深夜,年轻漂亮的阿普丽尔·艾布拉姆斯在家中被杀,生前遭到性侵。奥斯汀市探长里德·诺瓦克和搭档杰伊·华莱士接手了这个案子。他们发现死者家门廊里的灯泡被动了手脚,但没有强行闯入的迹象,作案动机不明。随着调查的深入,几起悬案重又浮出水面。原来,类似案件不仅发生在得克萨斯州州府奥斯汀,还发生在密歇根州的安阿伯市。最要命的是,受害者都是在校女大学生或参加工作不久的年轻女性。眼看大学的秋季学期就要开始,可凶手还在继续作案。原来凶手是个隐藏极深的黑客,通过入侵网络监视目标女性,并最终发展到线下跟踪……作为特尔斐中心网络犯罪调查部的美女专家,莱尼·诺克斯潜入互联网最黑暗的角落和最隐秘之处,锲而不舍地追寻嫌疑人。她有意避开奥斯汀警察局正在侦查的这起谋杀案,因为该案和几年前她遭受的攻击有诸多相似之处。那次被袭给她留下了严重的心理创伤,至今没有痊愈。在莱尼眼中,里德探长成熟稳重,英俊性感。莱尼主动为他提供帮助,然而,里德所想远不止此,他想赢得她的信任。莱尼坚持网络调查,但随着她和里德关系的加深,她试图揭开那些被严加保护的秘密,这可能使她成为凶杀案最关键的目击证人,也可能使她成为凶手的下一个目标。

帕姆·杰诺芙,鞠薇[10](2020)在《在巴黎失踪的女孩》文中认为在战争时期,真相是如此可贵,需要用谎言来护卫。——温斯顿·丘吉尔第一章格雷丝1946年,纽约要不是犯了人生中第二个严重错误,格雷丝·希利永远不会发现那个手提箱。周二上午9点20分,格雷丝原本应该乘坐开往市中心的早班巴士,从"地狱厨房"街区的出租屋前往她工作的下东区办公室。她是在去上班的路上,但不是从那个称为"家"的方向过来,而是匆匆穿行在麦迪逊大街,边走边将头发绾成发髻。尽管天气寒冷,她还是迅速脱掉外套,扯下里面的薄荷绿开衫。她不想让弗朗基注意到她穿着和昨天一样的衣服,从而怀疑她昨晚根本没有回家。

二、怎样处理声音文件(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、怎样处理声音文件(论文提纲范文)

(1)声音控制及处理方法在FLASH动画制作中的应用研究(论文提纲范文)

1 声音在FLASH的添加方法
    1.1 常见的声音素材格式
    1.2 声音添加在动画中的方法
    1.3 声音添加要点
    1.4 背景音乐的添加
    1.5 声音添加至按钮
2 FLASH动画制作中的声音控制研究
    2.1 时间轴的运用
    2.2 Action Script语句的应用
        1)对库内声音的调用
        2)播放和停止
        3)外部声音文件的调用
    2.3 声音的循环播放
3 FLASH动画制作中声音处理问题与方法
    3.1 画面与声音不同步
    3.2 裁剪与压缩声音
    3.3 WAV文件容量增加
4 结束语

(3)基于深度学习的声音识别分类系统(论文提纲范文)

摘要
Abstract
缩略词表
1 绪论
    1.1 研究背景及意义
        1.1.1 声音识别的概述
        1.1.2 声音识别研究的背景
        1.1.3 声音识别的应用和发展
        1.1.4 声音识别面临的问题
    1.2 国内外研究现状
    1.3 论文主要研究内容及结构安排
2 声音识别分类的基本原理
    2.1 声音识别基本原理
        2.1.1 声音的定义
        2.1.2 声音识别的理论
        2.1.3 实现声音识别总体思路
    2.2 声学特征分析
    2.3 基于MFCC算法的声音识别分类研究
        2.3.1 声谱图的介绍
        2.3.2 倒谱分析(Cepstrum Analysis)
        2.3.3 Mel频率分析(Mel-Frequency Analysis)
        2.3.4 梅尔频谱系数(Mel-Frequency Cepstral Coefficients)
    2.4 声学模型
        2.4.1 隐马尔可夫模型(Hidden Markov Model,HMM)
        2.4.2 高斯混合模型(Gaussion Mixture Model,GMM)
    2.5 语言模型
        2.5.1 n-gram语言模型
        2.5.2 RNN语言模型
    2.6 本章小结
3 基于深度学习的声音分类算法研究
    3.1 深度学习背景
    3.2 深度学习的算法
        3.2.1 线性回归
        3.2.2 Softmax回归
        3.2.3 多层感知器(MLP)
    3.3 卷积神经网络
        3.3.1 卷积神经网络概念
        3.3.2 二维卷积
        3.3.3 CNN的多输入通道和多输出通道
        3.3.4 池化层
        3.3.5 批量归一化
        3.3.6 残差网络
    3.4 循环神经网络
    3.5 本章小结
4 基于深度学习的声音识别分类系统的建立
    4.1 元数据
    4.2 音频信号分析
    4.3 模型参数的选择
    4.4 模型构架
    4.5 交叉验证
    4.6 模型改进方向
    4.7 本章小结
5 基于深度学习的声音分类算法的优化与测试
    5.1 系统结构设计
        5.1.1 数据探索和可视化
        5.1.2 数据预处理
        5.1.3 MFCC特征提取
    5.2 模型优化的总体思路
        5.2.1 MLP模型和CNN模型的初步构造
        5.2.2 评估标准的建立
    5.3 MLP模型的实施
        5.3.1 基准算法的验证(Benchmark model)
        5.3.2 MLP算法模型的优化
        5.3.3 模型参数的优化
        5.3.4 MLP模型的训练
        5.3.5 MLP模型的测试
        5.3.6 MLP模型的预测和验证
        5.3.7 MLP模型的深度优化
    5.4 CNN优化模型的实施
        5.4.1 CNN优化模型的构造
        5.4.2 CNN优化模型的编译
        5.4.3 CNN优化模型的训练
        5.4.4 CNN优化模型的测试
        5.4.5 CNN优化模型预测和验证
        5.4.6 错误分类可靠性分析
    5.5 结果
        5.5.1 模型的评估与验证
        5.5.2 实验结果对比
        5.5.3 系统的实际应用
    5.6 小结
6 总结与展望
    6.1 总结
    6.2 展望
参考文献
攻读学位期间发表的论文与研究成果清单
致谢

(4)用于声音分类的Deep LightGBM算法研究及嵌入式实现(论文提纲范文)

摘要
abstract
第1章 引言
    1.1 研究背景
    1.2 国内外声音分类研究现状
    1.3 论文结构安排
第2章 声音分类相关理论和技术基础
    2.1 声音分类流程
    2.2 常用的音频特征
        2.2.1 声音信号的时域特征
        2.2.2 声音信号的频域特征
        2.2.3 声音信号转为图像提取特征
    2.3 树形学习器的发展
        2.3.1 决策树
        2.3.2 集成学习
        2.3.3 随机森林
        2.3.4 GBDT
        2.3.5 LightGBM
    2.4 本章小结
第3章 基于Deep LightGBM的声音分类方法研究
    3.1 数据集介绍
    3.2 音频数据集处理
        3.2.1 数据集预处理
        3.2.2 数据集增强
    3.3 音频特征提取方法
    3.4 Deep LightGBM
        3.4.1 基于向量特征提取法的分类结构
        3.4.2 基于融合特征的分类结构
    3.5 分类评价指标及实验平台
    3.6 实验与结果分析
        3.6.1 基于CNN进行分类
        3.6.2 基于Deep LightGBM的分类效果
        3.6.3 与CNN的结果对比
        3.6.4 与其他方法的结果对比
        3.6.5 其他声音分类数据集的效果对比
    3.7 本章小结
第4章 算法的嵌入式实现及优化
    4.1 嵌入式平台介绍
    4.2 系统整体设计
    4.3 PS部分设计
        4.3.1 模型迁移效果比较
        4.3.2 代码优化
    4.4 PL加速部分设计
        4.4.1 LightGBM模型读取预测
        4.4.2 PS与PL双向高速通信
    4.5 本章小结
第5章 总结与展望
    5.1 全文总结
    5.2 研究展望
参考文献
致谢
作者简历及攻读学位期间发表的学术论文与研究成果

(5)基于Arduino与MFC的点读数位笔研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 选题背景
    1.2 课题来源以及研究意义
    1.3 论文的整体结构
第二章 相关硬件及技术介绍
    2.1 点读笔构造及工作原理
    2.2 铺码技术
        2.2.1 OID码
        2.2.2 点读制品的印刷过程
        2.2.3 点读贴
    2.3 相关硬件模块介绍
        2.3.1 数位板概述
        2.3.2 Arduino Mega2560
        2.3.3 HC-12 无线串口通信模块
        2.3.4 CH9350L芯片
        2.3.5 HX711 芯片
    2.4 本章小结
第三章 基于MFC的声音文件合成系统的需求分析及设计实现
    3.1 MFC简介
    3.2 系统功能需求分析
        3.2.1 目标文件分析
        3.2.2 软件系统分析
    3.3 合成工具界面设计
    3.4 合成工具的软件实现
        3.4.1 按键功能的实现
        3.4.2 所需文件格式
        3.4.3 软件实现
    3.5 点读模块性能测试
    3.6 本章小结
第四章 基于Arduino Mega2560 的绘画模块的设计与实现
    4.1 基于Arduino Mega2560 绘画模块的设计
    4.2 相关软件介绍
        4.2.1 易语言
        4.2.2 Arduino IDE
    4.3 点读数位笔绘画模块功能实现
        4.3.1 点读数位笔绘画模块硬件实现
        4.3.2 点读数位笔绘画模块软件实现
    4.4 绘画模块性能测试
    4.5 本章小结
第五章 总结与展望
    5.1 结论
    5.2 展望
参考文献
致谢

(6)基于神经网络的环境声音识别算法研究(论文提纲范文)

摘要
ABSTRACT
缩略词表
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
    1.3 本文的主要工作与结构安排
第二章 环境声音识别算法方案设计
    2.1 环境声音识别算法框架
    2.2 分类器模块
        2.2.1 传统机器学习算法
        2.2.2 神经网络算法
    2.3 声音增强模块
    2.4 数据集设计
        2.4.1 目前开源数据集
        2.4.2 ESCS数据集
    2.5 本章小结
第三章 基于CNN的环境声音分类算法
    3.1 声音特征的提取
        3.1.1 线性预测系数
        3.1.2 声谱图
        3.1.3 梅尔倒谱系数
    3.2 卷积神经网络模型
    3.3 bottleneck模块
    3.4 通道注意力机制
    3.5 实验仿真
        3.5.1 评价指标
        3.5.2 分析结果
    3.6 本章小结
第四章 基于GAN的环境声音增强算法
    4.1 生成对抗网络
        4.1.1 GAN网络结构
        4.1.2 改进方案
    4.2 EEGAN设计
        4.2.1 EEGAN的算法流程
        4.2.2 生成网络和判别网络
    4.3 实验仿真
        4.3.1 评价指标
        4.3.2 分析结果
    4.4 本章小结
第五章 环境声音识别可视化实现
    5.1 实现平台及开发环境
    5.2 软件功能结构
        5.2.1 操作显示模块
        5.2.2 输入模块
        5.2.3 信号预处理模块
        5.2.4 环境声音识别模块
        5.2.5 环境声音增强模块
    5.3 实验验证
    5.4 本章小结
第六章 全文总结与展望
    6.1 全文总结
    6.2 后续工作展望
致谢
参考文献
攻读硕士学位期间取得的成果

(7)基于智能手机传感器的液体剩余量检测技术研究(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 本文研究背景与意义
    1.2 国内外研究现状
        1.2.1 基于移动端的液体检测技术
        1.2.2 基于智能手机传感器的应用
    1.3 本文研究内容
    1.4 本文组织结构
第二章 相关技术研究
    2.1 液体检测技术
        2.1.1 基于液体物理特性
        2.1.2 基于射频信号
    2.2 傅里叶变换
    2.3 小波变换
    2.4 相关特征介绍
        2.4.1 短时平均过零率
        2.4.2 梅尔频率倒谱系数
        2.4.3 频谱质心
        2.4.4 音符起始点检测
    2.5 分类算法
        2.5.1 支持向量机
        2.5.2 随机森林
        2.5.3 XGboost
    2.6 本章小结
第三章 DeMilk系统框架设计
    3.1 DeMilk系统概述
    3.2 数据采集模块
    3.3 模型训练模块
    3.4 用户使用模块
    3.5 关键技术
    3.6 本章小结
第四章 DeMilk数据采集与处理
    4.1 基于手机声音传感器的数据采集
        4.1.1 牛奶的包装规格
        4.1.2 牛奶剩余量的分类情况
        4.1.3 牛奶的晃动姿态
        4.1.4 晃动声音的采样频率
    4.2 DeMilk声音数据预处理
        4.2.1 数据分割
        4.2.2 降噪滤波
    4.3 本章小结
第五章 基于SVM的液体检测算法
    5.1 DeMilk特征提取
    5.2 DeMilk特征筛选
        5.2.1 特征方差分析
        5.2.2 特征相关性分析
        5.2.3 基于包装法的特征筛选
    5.3 SVM模型结果分析与对比
    5.4 本章小结
第六章 DeMilk系统实现
    6.1 开发环境
    6.2 App的设计开发
        6.2.1 App的界面
        6.2.2 App的录音功能
        6.2.3 App的文件上传
    6.3 本章小结
第七章 总结与展望
    7.1 本文总结
    7.2 后续研究展望
致谢
参考文献
攻读硕士学位期间取得的成果

(8)基于深度神经网络的人声分离算法的研究与应用(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景与意义
    1.2 语音分离研究现状
        1.2.1 基于信号处理的分离方法
        1.2.2 基于模型的分离方法
    1.3 本文主要研究内容和创新点
    1.4 本论文的结构安排
    1.5 本章小结
第二章 相关技术背景研究
    2.1 独立主成分分析分离算法
    2.2 基于全连接网络的语音分离算法
        2.2.1 全连接的定义
        2.2.2 基于DNN语音分离算法
        2.2.3 基于相位改进得DNN人声分离算法
    2.3 基于卷积神经网络的人声分离模型
        2.3.1 卷积神经网络的定义
        2.3.2 自编码器的定义
        2.3.3 基于卷积神经网络的自编码器
        2.3.4 基于端到端的语音分离算法
    2.4 基于循环神经网络的人声分离模型
        2.4.1 循环神经网络的定义
        2.4.2 基于深度循环神经网络的单通道音乐人声分离
    2.5 本章小结
第三章 基于WAVEUNET的分离框架
    3.1 分离框架
    3.2 WAVEUNET算法
        3.2.1 u-net神经网络
        3.2.2 WAVEUNET神经网络
    3.3 训练目标
    3.4 本章小结
第四章 算法的实现与评估
    4.1 实验环境配置及数据集
    4.2 实验指标
    4.3 不同实验目标对WAVEUNET的影响
        4.3.1 数据集选择
        4.3.2 实验设置
        4.3.3 实验结果
    4.4 不同深度的WAVEUNET对比
        4.4.1 实验设置
        4.4.2 实验结果
    4.5 与其他人声分离算法的性能对比
        4.5.1 数据集选择
        4.5.2 实验设置
        4.5.3 实验结果
    4.6 本章小结
第五章 音频工具的设计与实现
    5.1 音频工具概述
    5.2 音频工具的开发环境
        5.2.1 开发环境总览
        5.2.2 主要编程工具选择
    5.3 需求分析
        5.3.1 总体需求分析
        5.3.2 用例
    5.4 音频工具的设计与实现
        5.4.1 音频工具整体架构
        5.4.2 语音分离
        5.4.3 语音分析
    5.5 音频工具的测试
        5.5.1 音频工具基础辅助功能测试
        5.5.2 语音分离测试
        5.5.3 语言分析测试
    5.6 本章小结
第六章 全文总结与展望
    6.1 工作总结
    6.2 工作展望
致谢
参考文献
攻读硕士学位期间取得的成果

(9)深黑(论文提纲范文)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

(10)在巴黎失踪的女孩(论文提纲范文)

第一章格雷丝
第二章埃莉诺
第三章玛丽
第四章格雷丝
第五章玛丽
第六章埃莉诺
第七章玛丽
第八章格雷丝
第九章玛丽
第十章格雷丝
第十一章玛丽
第十二章格雷丝
第十三章埃莉诺
第十四章玛丽
第十五章格雷丝
第十六章埃莉诺
第十七章玛丽
第十八章埃莉诺
第十九章玛丽
第二十章格雷丝
第二十一章玛丽
第二十二章埃莉诺
第二十三章格雷丝
第二十四章埃莉诺
第二十五章埃莉诺
第二十六章玛丽
第二十七章埃莉诺
第二十八章埃莉诺
第二十九章格雷丝
第三十章埃莉诺
第三十一章格雷丝
第三十二章格雷丝

四、怎样处理声音文件(论文参考文献)

  • [1]声音控制及处理方法在FLASH动画制作中的应用研究[J]. 陈敏. 电脑知识与技术, 2021(33)
  • [2]脱身策略[J]. 查尔顿·佩特斯,余书华. 译林, 2021(05)
  • [3]基于深度学习的声音识别分类系统[D]. 肖科. 重庆三峡学院, 2021(01)
  • [4]用于声音分类的Deep LightGBM算法研究及嵌入式实现[D]. 李行健. 中国科学院大学(中国科学院上海技术物理研究所), 2021(01)
  • [5]基于Arduino与MFC的点读数位笔研究[D]. 郝浩志. 广西大学, 2021(12)
  • [6]基于神经网络的环境声音识别算法研究[D]. 王亚文. 电子科技大学, 2021(01)
  • [7]基于智能手机传感器的液体剩余量检测技术研究[D]. 刘笑男. 电子科技大学, 2021(01)
  • [8]基于深度神经网络的人声分离算法的研究与应用[D]. 常雪姣. 电子科技大学, 2021(01)
  • [9]深黑[J]. 劳拉·格里芬,刘文霞. 译林, 2021(02)
  • [10]在巴黎失踪的女孩[J]. 帕姆·杰诺芙,鞠薇. 译林, 2020(04)

标签:;  ;  ;  ;  ;  

如何处理声音文件
下载Doc文档

猜你喜欢