一、采用多级查找表的定/变长解码引擎(论文文献综述)
曹士杰[1](2021)在《基于算法-硬件协同设计的高性能人工智能计算》文中提出大数据和深度学习的兴起使得人工智能在视觉、语音和语言等应用领域取得了革命性的突破。数据、算法和算力是人工智能取得巨大成功的三要素。上层应用的数据规模和算法规模与日俱增,对硬件算力的需求呈指数级增长。然而随着摩尔定律和登纳德缩放比例定律的停滞,通用处理器的性能提升显着放缓。因此,人工智能应用面临硬件算力需求和供应之间的巨大差距。实现高性能人工智能计算是学术界的研究热点也是工业界人工智能应用落地的迫切需求。算法-硬件协同设计同时在算法端减少对算力的需求,在硬件端带来性能提升,是实现高性能人工智能计算的重要方法。本文结合人工智能领域特性,通过分析算法设计和硬件设计对计算和访存特性的需求矛盾,提出了一套高性能人工智能计算的算法-硬件协同设计方法,其核心内容包括面向硬件优化算法和面向算法定制硬件。本文的研究工作以该算法-硬件协同设计方法为指导原则,围绕数据规模增长和算法规模增长带来的巨大算力需求,针对搜索引擎数据检索和深度学习模型推理选取了四个具体问题进行研究以实现高性能计算。具体研究内容如下:(1)搜索引擎海量互联网数据的快速选取。搜索引擎的选取服务为了选取匹配用户查询的文档,需要对海量的互联网数据进行检索。即使部署了大量的CPU,计算和访存密集的选取服务依然面临着高延迟,低吞吐和高能耗的挑战。本文对选取服务的关键部分匹配计算和索引读取进行了算法优化和硬件定制,提出了基于FPGA的选取服务专用加速器系统。具体地,本文在算法端基于剪枝减少了索引查询量和匹配计算量,在硬件端通过电路微结构设计定制了流水并行的匹配处理器和高效的索引流读取器。使用必应搜索的真实索引数据和查询日志进行实验评估,该系统可以显着降低选取服务的平均延迟和尾部延迟,并提高吞吐量。(2)深度神经网络权值稀疏的模型有效性和硬件高效性权衡。近年来深度神经网络的模型参数量和计算量呈指数级增长。权值稀疏化具有很好的模型压缩效果,同时也引入了不规则计算和访存,对并行计算硬件并不友好。结构化稀疏可以解决硬件高效性的问题,但是对模型准确率和压缩率产生了极大影响。本文同时从模型有效性和硬件高效性的角度对权值稀疏进行需求分析和协同设计,提出了组平衡权值稀疏模式。组平衡稀疏化算法将权值矩阵划分为大小相同稀疏度相同的组以进行并行计算,在组内采用非结构化稀疏以保证模型的准确率。实验表明,组平衡稀疏具有与非结构化稀疏几乎相同的模型压缩效果,且优于其他结构化稀疏;为组平衡稀疏设计实现的GPU加速库相比较于其他稀疏模式的GPU加速库,实现了显着的性能提升。(3)基于权值稀疏的LSTM网络低延迟推理。LSTM网络广泛应用于语言语音等延迟敏感的应用中。为了实现LSTM网络的低延迟推理,本文将组平衡稀疏模式应用到LSTM网络中,提出了基于FPGA的组平衡稀疏LSTM推理加速器。矩阵向量乘法是LSTM模型推理中计算最密集的部分,该FPGA加速器结合稀疏矩阵的组平衡特性,定制了负载均衡和访存规则的高并行矩阵向量乘法核心,因此对于批处理大小为1的LSTM模型推理也能实现低延迟。实验表明,与之前使用不同压缩技术的LSTM网络FPGA加速器相比,基于组平衡稀疏的LSTM网络FPGA加速器实现了显着的延迟降低。(4)基于特征稀疏的CNN模型高效推理。卷积神经网络产生的特征图中存在大量的稀疏性,利用特征稀疏可以避免大量无效的计算和访存,从而降低模型推理的负担。本文提出了一种新的基于数值量化预测特征稀疏的CNN推理加速框架。基于低比特数值量化的特征稀疏预测方法具有轻量性和通用性的优势,并且不需要对模型进行重训练。利用预测出的特征稀疏作为卷积计算的输出稀疏,该框架可以剪枝模型推理中大量零值对应的无效前序计算。实验表明,低比特量化网络可以准确地预测特征稀疏性,且对模型的总体准确率几乎没有影响;该框架的CPU实现显着减少了卷积计算量并加速了CNN模型推理。综上所述,本文的研究工作基于算法-硬件协同设计为人工智能面临性能瓶颈的代表性应用和算法提出了高性能计算方案,希望可以为未来研究提供借鉴和参考,促进高性能人工智能计算和算法-硬件协同设计的发展。
曹壮[2](2020)在《基于可重构的网络报文处理关键技术及快速生成方法研究》文中研究说明随着现代互联网络技术的快速发展,各种网络应用已经深深地渗透到了社会的每一个角落:从基本的工作应用需求出发,一直延伸到人们的衣食住行,社交和娱乐需求中。丰富的互联网应用在给人们带来多彩生活的同时,却给支撑起这些应用的基础通信网络带来了各种挑战。这些挑战包括:首先,网络规模的不断扩大,网络用户数量的逐年增加,以及通信数据的海量传输,使得不断增加的互联网带宽仍显捉襟见肘;与此同时,网络特性的变化对网络服务商的网络管理能力和网络的安全带来很大的挑战。其次,随着云计算、大数据技术等新兴技术的发展,诸如数据中心、电商、视频点播等各种新型网络平台及应用的不断涌现,使得封闭僵化的现有网络结构无法对这些新的应用提供足够的支撑。此外,现有网络结构受到既有硬件技术的限制,网络设备的升级换代只能通过更换硬件设备的方式实现,带来巨大的时间成本和费用成本。最后,现有的“产商设计生产设备+网络服务商使用”的网络发展模式,使得各种设备标准林立,网络服务商使用困难,而且不具备话语权;封闭的网络设备研发生产体系,导致网络服务商无法针对网络应用进行合理有效控制,造成服务质量难以令人满意。基于以上原因,网络技术研究人员开始寻求网络处理技术的革新,包括网络处理器在硬件平台、体系结构和开发技术上的改变,以此同时满足高性能、高灵活性和快速开发部署等方面的需求。随着可重构的现场可编程门阵列(Field Programmable Gate Array,FPGA)技术的不断发展,结合计算机技术的进步,比如处理器体系结构的提出和领域特定语言(Domain Specific Language,DSL)比如P4)及其编译工具链的应用和发展,为应对以上挑战提供了可能。本文首先深入研究多核网络处理器(Network Processor,NP)体系结构和可编程的“Match-action”体系结构的特性,以及将两者应用至FPGA这种可重构器件过程中的部分关键技术。然后,针对本文设计的可重构网络报文处理流水线提出了一种使用P4语言的高层次快速开发方法。具体工作分为以下三个部分:首先,针对多核网络处理器结构在可重构芯片的应用展开研究。由于单核性能受限,多核NP结构只能通过不断增加单核数量提高报文处理并行度来提升处理性能。随着核数量的提升,随之而来的是每个内核受到片上存储空间的限制。如果将多核结构运用至资源受限、运行频率低的可重构芯片中,每个内核所分配得到的存储资源将变得更加紧张,运行过程中的访存冲突问题也更为突出,从而造成性能的急剧下降。针对该问题,本文提出了面向网络报文转发的指令集压缩定制的方法,通过使用压缩指令集,降低内核结构的复杂度,提高指令密度,进而减少访存次数,获得更高的指令缓存(Instruction Cache)命中率。本文以开源指令集RISC-V为基础详细描述了该定制方法。实验结果表明,通过该方法定制的新指令集在代码的压缩上有着较原压缩指令集更高的压缩效率及更好的处理性能。其次,针对“Match-action”结构在可重构芯片上实现的不足点,提出了基于流水线结构的报文解析器(Parser)和逆解析器(Deparser)结构及其设计方法。从提高处理性能和减少处理延时的目标出发,对“Match-action”引擎提出了结构的优化方案和依据依赖关系规划流水线的方法。具体工作如下:·基于流水线结构的解析器和逆解析器由多级流水线组成,报文头内的各个协议首部在流水线的传输过程中被逐级解析或编辑,直至所有的协议首部操作完成并输出。通过分析所需支持的报文实例,以及各协议之间的解析关系并将绘制成有向无环图(Directed Acyclic Graph,DAG),以此作为流水线结构的设计依据。该设计方法解决了(逆)解析过程可能存在的协议处理冲突(Conflict)和停顿(Stall),实现完全流水化,并且具有较高的处理性能。·针对“Match-Action”引擎中的多表项(Table)结构,提出将表项间的依赖关系建立表项依赖关系图(Table Dependency Graph,TDG),并依据依赖关系的种类对表项的执行顺序进行调整,从而实现缩短流水线长度,简化流水线结构的目的。此外,通过改变表项中“Action”部分的执行方式,从而彻底摆脱通过执行指令实现各种逻辑操作的低效执行方式。在流水线的结构设计过程中,根据设计的要求定义内部总线的带宽和表项的大小,从而减少非必要的资源占用,提高可重构芯片的资源利用率。实验结果表明,基于这种设计方法生成的网络报文流水线结构具有占用资源少、运行频率高、吞吐率高和延迟低的优点。其中本文所设计的解析器与现有的同类解析器比较,在同等资源使用率的情况下,吞吐率能平均达到两倍以上。最后,针对上述(逆)解析器和“Match-action”结构所组成的报文处理流水线,提出了一个将其快速实现至可重构芯片的转换方法:首先将该流水线结构中的各个功能模块抽象为不同的通用模板并组织成模板库(Template Library),并使用VHDL代码实现;然后将P4高级语言程序描述的网络报文处理功能及控制参数映射至对应的模板中并实例化;最后将各个功能模块按照设计要求进行连接,并生成可综合的VHDL应用代码。此外,在该框架中提出了评估库(Evaluation Library)的概念,并将其应用于流水线的优化和性能估计。该开发方法能够使网络开发人员在不考虑硬件细节的情况下,集中精力于网络应用的开发,以此提高开发效率和降低开发难度。
刘博寒[3](2020)在《基于处理器跟踪和控制流完整性的软件漏洞利用检测技术研究与实现》文中指出随着计算机技术的发展,人们日常生活对于计算机软件的需求也日益提高,随着快速开发和版本迭代,难以避免的造成软件安全漏洞的引入。近年来,利用软件安全进行攻击的事件屡见不鲜,对个人隐私、财产安全、国家安全造成了极大的威胁。为提高漏洞利用过程的发现能力,提高对漏洞攻击事件的响应速度,本文提出一种面向程序控制流、低开销、透明、普适的软件漏洞利用检测技术。该技术基于处理器跟踪特性和控制流完整性思想,通过将处理器跟踪引入到程序动态监控中,替代目前常用的动态插装技术,实现对程序执行流的高效、透明监控。并针对处理器跟踪技术特性,设计一种动静结合的程序控制流图构建技术,提高控制流图的完整性和检测效率。利用控制流完整性思想,对程序实时控制流进行合法性检测,并通过对控制流劫持攻击后执行恶意代码的研究进行二次验证,从而降低误报率,实现对ROP、虚表劫持、ret21ibc、ret2shellcode等多种通用漏洞利用方法的高精度检测。基于上述思路,本文实现了一套基于处理器跟踪和控制流完整性的软件漏洞利用检测原型系统,通过对多类常见软件的动态监控性能测试,可以验证其相比于传统用户态动态插装技术具有低开销、透明的特性。并通过对多类软件漏洞利用技术的检测验证,发现其中针对于返回地址覆盖攻击类型的检测准确率达到100%,其余攻击类型检测准确率均在94%以上,证明其能够抵御常见的程序控制流劫持攻击,并对一些新型攻击具有一定的防御作用。此外,通过对随机选取的真实漏洞利用过程进行检测与分析,证明本文提出方法可以快速对漏洞利用行为进行检测,对于漏洞攻击事件的定位与分析有较大帮助,具有较高的实用价值。
朱嘉[4](2019)在《集成电路追踪系统数据压缩与调试系统设计技术研究》文中指出随着半导体技术的快速发展,数以亿计的晶体管集成在单芯片上,多核片上系统的多电源域划分,功耗,吞吐量,时钟同步等问题使得芯片设计异常复杂。如果不限定测试场景,可以认为各种功能组合条件下的测试用例趋近无穷多,在有限的项目周期下很难完成芯片的设计验证工作。为了保证芯片上市时间,硅前验证做了很场景限定,因此在各个子模块及系统级做过较为完备的验证,硅后测试或者平台开发时仍会发现功能验证漏洞。如果工程样片在硅后验证时,电路内部节点状态可观测性差,片外获得信息不准确,会使得硅后追踪调试变得异常困难。为了提高芯片硅后可调试性,增加追踪数据带宽,本文做了以下研究,并取得成果。论文首先提出了一种全新的监测信号选择方式,该方式摒弃了传统的分散式监测信号选择,而采用了广播选择模式选择监测信号,即利用同一套寄存器进行监测信号选择,选择出整个芯片所需输出的监测信号。计算结果说明采用本文所设计的监测信号选择系统,选择寄存器数目线性增长,而分散式选择模式下寄存器数目则以几何级数增长。而且本文所提出的信号监测系统信号监测容量明显增大。监测选择出的信号在本文设计的追踪调试系统中被送往片上逻辑分析仪。通过逻辑分析矩阵和追踪数据输出,提高整个追踪调试系统的可调试性。为了进一步提高芯片的可追踪性,加强芯片内部状态的实时监控,文章分别对仲裁器追踪系统,总线访问的追踪系统做了深入研究,并提出单向NoC追踪系统。文章首先研究了当前仲裁器追踪结构,设计了变速率先进先出缓存,提高了仲裁器追踪系统时间戳处理能力。为了解决小数据包频繁占用外设存储带宽问题,在追踪缓存控制逻辑中设计了读阈值和超时机制,减少了追踪数据读出频次并且保证了数据输出完整性。并在仲裁器追踪系统引入溢出监测器设计,增强了该追踪结构的溢出处理能力。其后本文又研究了总线访问的追踪系统,介绍了该系统的追踪捕捉节点和时间戳处理。最后为了提高追踪数据带宽和降低追踪数据输出延迟,本文进一步提出了单向NoC追踪系统。单向NoC追踪架构解决了大规模多核系统如基带芯片的主要模块的实时调试问题。该系统流片测试数据表明,单向NoC追踪系统相较于仲裁器追踪系统带宽提高40%,网络延迟降低3倍以上;相较于功能与追踪共享NoC追踪系统带宽提高27%,网络延时降低5%以上。单向NoC的追踪架构最终以电路形式实现并流片成功,实验证明该结构提高片上系统的数据追踪效率,加快样片的调试和开发。本文设计实现了追踪系统输出模块,片上追踪系统输出设计分为外设存储输出和芯片引脚输出设计。为了减小输出数据对外设传输压力,追踪系统输出模块内设置了寄存器可配的过滤条件,经过设定的过滤条件,减少输出数据个数。根据当前最新工业标准协议MIPI STP2.2设计了相应追踪数据编码器,将数据按照协议输出至片外进行线下分析。通过并行接口输出设计,芯片引脚可在上升和下降时钟双沿向片外输出数据,将追踪数据输出数据率提高一倍,提高了追踪数据引脚输出带宽。改善可调试追踪架构之后,通过数据压缩可再次提高追踪数据带宽。追踪数据压缩分为追踪指令压缩和追踪传输数据压缩。减少指令存储是追踪指令压缩的重要环节,编译程序块中顺序执行指令占比较大,仅记录程序入口和跳转指令可以减小线性指令的存储,起到追踪指令压缩的作用。针对追踪传输数据压缩,本文利用无损压缩算法的硬件实现对追踪传输数据进行高压缩率压缩。为了节省面积,压缩引擎并没有设计在各个数据源,而是在追踪数据最终输出模块。利用Deflate压缩算法实现了硬件压缩电路。算法具体实现是各家产品硬件功能,效率差别的主要根源。本文采用了双HASH链表及4路比对模式,极大提高了 Deflate算法中LZ77的压缩效率。同时兼顾硬件资源开销,第二级压缩使用了静态哈夫曼查找表进行压缩。整个压缩数据在追踪输出逻辑进行打包输出,保证其数据完整性。最后该压缩结构在可编程逻辑阵列进行原型验证,并最终嵌入在调试追踪系统中流片量产。在硅后测试过程中,该压缩设计能够达到50%以上的数据压缩。本文研究了当前五线JTAG的片上调试技术,并在此基础上设计通用接口转JTAG桥接电路,解决了 USB或PCIE通用接口片上调试功能设计。在多核片上系统调试结构中,本文提出多核触发矩阵,多核系统暂停和核心存储设计,通过多核调试系统结构,可以最大程度保留调试现场,记录各个状态寄存器状态,利用主机进行线上或线下调试。本文最后介绍了混合信号自测系统设计。引入了 IEEE1149.4的混合信号自测调试结构并解决了芯片射频部分的测试高成本的问题。低成本复杂片上系统测试中的内建自测电路成为整个接收机和发射机设计的关键问题。目前已有的设计架构均占用了较多的硬件资源,导致成本升高。本文提供的射频内建自测结构,着重利用片上已有硬件资源,通过片上DSP,CORDIC和模数转换器对射频前端测试信号进行傅里叶分析并得到相应的信噪比等结果,并将这些结果作为关键测量参数验证射频功能。另外该自测结构利用环回结构设计,将射频部分产生的信号用来作为测试信号而避免了外部噪声的干扰。通过以上方法,减小了硬件开销。这种射频内建自测方法已经作为一种有效,低成本的设计方法用于新产品的量产。
宋省身[5](2018)在《时空高效的倒排索引压缩和求交算法研究》文中认为随着互联网的发展,各类信息的体量规模增长也越来越快。日益壮大的数据体积和用户数量也为各类信息系统,尤其是搜索引擎带来了严峻的考验。应对这类挑战的关键措施是提升系统在数据爬取收集、整理压缩以及查询应答的效率,而倒排索引作为信息检索底层最常用的数据结构,(负责对信息进行组织管理和查询处理),对检索效率和系统运营成本有着至关重要的影响。因此,针对倒排索引的压缩和查询优化已经成为信息检索领域一个重要的研究课题。为此,本文针对倒排索引的压缩和查询效率问题,重点研究了设计时空高效的压缩算法和并行求交算法。本文的主要成果如下:1.为了提升压缩算法的压缩速度,本文将面向分块的压缩算法所使用的分块划分问题归纳为了在单源有向无环图上的最短路径问题,并改进优化了AFOR和VSEncoding压缩算法所使用的分块划分策略,包括为AFOR增加分块的折叠合并和使用近似算法替代VSEncoding的动态规划,提升其压解速度的同时维持了相同水平的压缩率。本文还提出了自启发式划分的Elias-Fano索引压缩算法,针对PEF索引使用多个滑动窗口反复遍历倒排链的缺点,该方法根据分块的长度和压缩代价增量的变化,仅需一个滑动窗口探测异常值并完成划分,在损失了轻微的压缩率和解压速度的代价下,极大地提高了压缩速度。实验结果表明,本文提出的压缩算法相比优化前的算法在压缩/解压缩速度-压缩率对应的时空曲线上能达到更优的位置。2.本文提出了双权重标准压缩算法的概念,针对近年来融合多种压缩算法的混合式索引,本文将最优地分配压缩算法到各个分块的问题,归纳为了资源受限的双权重有向无环图的最短路径问题,对应的权重为压缩大小和解压缩时间,并借助于拉格朗日松弛算法寻找压缩算法的最优分配方案。相比于现行的方案,本文的算法仅需要O(n log n)的时间和O(n)空间进行求解,同时结果与最优解之间仅保留加性误差。除此以外,我们还探索了使用动态规划对倒排链进行变长分块,将完成分配的分块按照相似度准则进行合并,进一步提升了查询效率。实验结果表明,本文提出的压缩算法分配算法能够动态地调整倒排索引的时空特性,使之适应实际应用中索引设计者对空间/时间的任一要求。3.针对倒排链的求交算法,本文首先回顾了传统的多倒排链求交算法以及近年来提出的基于SIMD的并行求交算法,归纳分析了影响求交算法的两个因素,即排除项选择方式和倒排链的搜索算法。由于当前基于SIMD的并行求交算法都是针对倒排链两两相交设计的,并未利用到传统的多倒排链求交算法。为此,我们提出了基于SIMD的多倒排链并行求交算法,由于它采用线性搜索,对于长倒排链的效果并不是很好。为了继续提高算法效率,我们首先研究了使用AVX2提供的收集指令同时收集倒排链中离散位置的元素与排除项同时进行比较,用于加速跳查过程;随后提出了基于双尺度自适应变换搜索窗口的搜索算法,相比于先行算法简单地使用经验参数,我们的搜索算法更针对参与倒排链的长度自动匹配最优的搜索参数,极大地提高了倒排链求交的性能。
马世碧[6](2018)在《基于HEVC的CABAC熵解码器设计与实现》文中进行了进一步梳理上下文自适应二进制算术编码(Context Adaptive Binary Arithmetic Coding,CABAC)是新一代高效视频编码(High Efficiency Video Coding,HEVC/H.265)中唯一的熵编码方法。CABAC是典型的比特级数据处理算法,且具有严格的串行依赖性。据统计,CABAC解码器时间开销占HEVC的25%以上,其中残差系数数据量占CABAC解码的60%-86%。因此,本文从CABAC码流解析状态机和残差系数解码两个方面来开展CABAC解码器的优化设计工作。论文的主要工作有:(1)设计了一种CABAC码流解析状态机优化电路。将常规解码和旁路解码用一种状态机统一控制,按语法元素的层次结构设置分级状态机,加入控制逻辑来控制解码顺序。该方法可降低两种状态机之间频繁转移产生的时钟周期,提高CABAC解码器速度。(2)设计了基于查找表的残差系数扫描电路。针对残差系数扫描周期消耗过多的问题,在残差系数解码中加入残差系数快速扫描电路,在解码出二维位置坐标(最后一个非零系数的位置坐标)时,使用快速扫描方法将二维位置坐标扫描成一维的扫描序列。实验结果表明,每个二维位置坐标的扫描平均仅需34个周期。(3)设计并实现CABAC熵解码器电路。设计实现包含HEVC的码流解析状态机、残差系数扫描、上下文建模、算术解码以及反二值化在内的所有电路。用多个标准测试码流测试CABAC熵解码器的解码功能,并完成现场可编程门阵列(Field Programmable Gate Array,FPGA)原型验证。实验结果表明,非零系数扫描周期占总周期的比最高降低55.72%,最低降低12.75%。
王晓婷[7](2016)在《基于CICQ结构的交换机关键技术及其实现研究》文中研究说明随着网络应用与数据流量的不断增长,对高性能交换设备的需求日益增加。为了实现高性能,交换设备通常采用基于虚拟输出队列(Virtual Output Queue,VOQ)的crossbar交换结构,在输入端设置VOQ缓存队列,既能使存储器满足带宽需求,又能够缓解队头阻塞问题,保持较高的交换效率。然而,VOQ结构需要一类集中式调度算法来完成调度,交换机规模和端口数据速率的增加使得这类调度算法受到了实际限制。另一方面,输入-交叉点联合排队(CICQ)交换结构比VOQ结构更具优势,具有解决VOQ结构的调度复杂性和可扩展性问题的潜力。CICQ交换结构利用crossbar内部交叉点缓存将输入和输出端口从逻辑上分离开,从本质上实现了简单的分布式调度,同时极大地缓解了传统VOQ结构的输入和输出冲突问题,提供更好的交换性能。基于CICQ结构的高性能交换机需要良好的调度算法,即具备几个基本特性:高吞吐率、低延迟、队列服务公平性、调度快速和易于硬件实现。本文主要围绕课题“面向航电应用的光纤通道(Fibre Channal)交换机设计”展开研究。根据航空电子系统对通信网络的高实时性、公平性能的要求,以CICQ交换结构为研究对象,重点从提高交换结构的时延性能、公平性方面进行关键技术的深入研究,并完成基于CICQ结构的4端口FC交换机的设计实现,为后续的FC交换机芯片设计提供技术基础。为了验证FC交换机的功能和性能,提出了一种能够精确模拟真实网络流量的高效流量生成方案,并设计了软硬件协同实现的交换机性能验证平台,通过验证平台对FC交换机进行了验证测试。论文的主要工作和创新点包括:(1)在CICQ结构的调度算法研究中,针对现有算法无法同时满足时延性能和公平性的问题,提出了两种高性能的调度算法—MCQFRR(The Most Critical Queue First-Round Robin)和IMCQFRR(Improved Most Critical Queue First-Round Robin),并研究其在定长交换下的交换性能。仿真实验表明,在均匀和非均匀流量下,新算法都能够保持良好的时延性能和稳定性,与典型的LQFRR(Longest Queue First and Round-robin)算法相当。通过公平性统计分析,MCQFRR和IMCQFRR采用最关键队列优先服务的策略,使得输入队列在不同情况下能够保持高效服务,与LQFRR相比公平性显着提高。(2)在变长数据包切分机制研究中,针对现有切分机制灵活性差和交换效率低等问题,提出了一种高效自适应的数据包切分机制(Adaptive Multipacket segments,AMS)。通过实验分析表明,CICQ结构采用AMS切分机制,在不同的流量模型下能够保证良好的时延性能,且明显优于已有方法中表现最好的变长多包切分机制(Variable-size Multipacket segments,VMS)。(3)在CICQ结构调度算法研究的基础上,面向航空电子系统应用设计了基于光纤通道协议的CICQ交换机体系结构,主要实现光纤通道协议中FC-0、FC-1、FC-2P层和数据包转发功能。对于变长FC帧交换,由于实现简单的优点,选择采用定长单包切分机制完成变长帧切分。针对现有定长单包切分实现技术切分延时较大、存储管理复杂的不足,在帧切分模块中采用了一种新的预切分方法实现定长单包切分过程,达到切分时延低、数据管理简单的目标,从而有利于提高交换结构的整体性能。(4)在测试流量生成方案的研究中,首先分析了交换设备性能评估时常用的流量模型,并选择合适的流量模式作为交换机测试中的测试激励。分析现有流量产生方案的优缺点,提出一种基于汇聚过程的流量生成模型,并根据此模型设计了流量生成器的架构。利用处理器的配置灵活性和FPGA硬件的高性能,流量生成器能够生成实时的泊松过程和自相似过程流量,而且能达到高数据速率,具有速度可扩展性。流量的统计特性结果表明,基于汇聚过程的流量生成器所产生的流量时间序列能够很好地模拟理想的流量模型。(5)设计并建立了软硬件协同实现的交换机性能验证平台,对平台的软件部分和硬件部分分别进行描述。将基于汇聚过程的高效流量生成器应用于FC交换机的验证测试过程中,产生近似真实网络流量行为特征的测试流量。基于交换机性能验证平台对4端口FC交换机原型进行验证测试,并分析了测试结果。
朱胜利[8](2014)在《基于移动智能终端的视像信号处理技术研究》文中研究说明全球第三代移动通讯技术已经迈向成熟阶段,而全球第四代移动通讯技术已经悄然而至,视像采集和视像处理已经成为移动通讯智能终端的重要组成部分。集成图像信号处理和视频信号处理器的系统级芯片方案在高像素消费类电子产品中有长足发展。本论文主要研究基于移动智能终端的视像信号处理技术及其实现,这将为移动智能终端的多媒体系统新架构的研究奠定了基础。论文在研究移动智能终端应用处理器的基础上,设计了适合移动智能终端解决方案的图像信号处理器和视频信号处理器架构,实现了视像信号处理系统,在提高主控芯片集成度的同时,降低了功耗和成本。论文主要针对移动终端视频采集的特点和高清视频处理的需求进行相应的理论研究和算法实现。详细研究了图像抗渐晕技术、自适应自动白平衡技术和AVS视频压缩技术的算法理论及电路设计,搭建了FPGA软硬件验证平台,并使用CMOS图像传感器OV5647,对数字图像处理器进行了FPGA板级验证。设计的视像信号处理系统在功耗、性能等方面达到预期效果,该系统被应用于移动智能应用处理器芯片之中,并采用28nm进行了流片。本文主要创新工作有:1.提出一种创新的抗渐晕图像算法,在有效消除渐晕的同时,改善了由镜头所引起的图像色彩不均匀。该算法首先利用统计方法得到图像中心点以及RGB三个通道的补偿因子曲线并进行线性拟合,而后通过计算得到各通道的衰减速率,最后利用各通道的衰减速率对图像进行补偿。经过算法处理后,图像相对照度提高到97.62%,渐晕现象消失。同时图像的相对色度提高了12.8%,达到83.14%,图像色彩变得均匀。2.提出一种高效基于流水线设计的环形滤波器架构。该架构应用于AVS高清视频解码器流水的第四级,在实现面积最优的同时提高了高清视频解码效率,达到高效、低成本的视频去块效应的目的,在1080P@30fps的高清实时解码情况下,面积为19.1Kgate(不含内部SRAM),成本更优。3.提出一种新型图像边界扩展算法以重构出界的参考宏块,实现了图像无限制运动向量(Unlimited Motion Vector,UMV)的获取,从而完善图像边界的运动补偿效果。解决了在AVS视频解码过程中由于参考宏块出界而导致视频解码效率降低的问题。本模块打开UMV后综合的芯片面积仅增加面积1.5%,而AVS视频解码系统采用UMV比不采用UMV解码效率明显提高。
洪兴勇[9](2013)在《高性能BWDSP处理器指令Cache研究与设计》文中研究说明信号处理技术被广泛应用于雷达、电子对抗、通信、声纳、语音视频等领域。随着这些领域各种器件和技术的进一步发展,市场对密集型数字信号处理的运算精度和速度提出了更高的要求。当前,用于数字信号处理的器件有专用ASIC器件、通用可编程逻辑(FPGA)器件和通用DSP处理器。其中,专用ASIC器件由于其灵活性方面的局限,已无法满足市场和应用的需求。此种情况下,利用通用可编程逻辑器件(FPGA)和通用DSP处理器构建的数字信号处理通用平台技术则随着集成电路技术、计算机技术和工艺水平的快速发展日趋成熟。近年来,伴随密集型数字信号处理技术本身的发展以及现代电子系统功能模式的繁多复杂,市场对以数字信号处理器件为核心的数字信号处理系统提出了新的要求,如具有处理矢量信号、宽频带(信号处理带宽不断加大)信号的能力,具有大动态范围的增益和频带实时可变等。技术上是否采用高性能数字信号处理器已成为提高整个数字信号处理系统性能和可靠性的重要措施。通用DSP处理器具有动态范围大,精度高、可通过编程方式来实现特定算法的优势。近25年来,尽管DSP处理器得到了快速发展,但目前国内所使用DSP芯片主要从国外进口,这势必给我国的国家安全和信息产业带来不利的影响。因此,如何自主研制DSP处理器芯片成为我国数字信号处理技术发展亟待解决的问题。为改变DSP芯片对国外产品技术的依赖,同时为满足国内市场的巨大需求,近年来中国电子科技集团第38研究所对高性能DSP处理器进行了专项研究,并成功研制出魂芯一号(BWDSP100处理器)芯片。高速缓存器(Cache)能有效解决DSP处理器内核运算速度与存储器访存速度不匹配问题,从而有效地提高DSP处理器运算能力。随着DSP处理器的功能日益强大,软件程序的复杂程度也在不断增大,软件的代码量迅速增加,同时DSP处理器需要强大编译器支持来实现各种应用程序,如循环展开优化编译器性能造成指令代码膨胀,采用无损数据压缩技术对经过编译、汇编后生成二进制机器指令代码进行压缩,减少指令代码存储空间大小,这样在DSP处理器存储空间有限条件下可以存储更多指令程序代码,同时增加Cache命中率,提高BWDSP处理器整体性能。指令Cache设计和压缩指令代码大小成为BWDSP处理器设计需要考虑的问题。本文结合中国电子科技集团第38研究所自主研制的高性能BWDSP处理器,从指令Cache设计、指令代码压缩方面展开研究工作。1)IC工艺发展28nm,高性能BWDSP处理器将取代国外DSP处理器产品。指令Cache性能是影响BWDSP处理器性能的主要因素之一,Cache替换算法是影响Cache性能的主要因素。本文提出4路PLRU的Cache替换算法。PLRU(Pseudo-LRU)替换算法是在指令Cache增加一个8bitlru[7:0]的矢量,当Cache命中某路更新lru[7:0]上的值;当Cache缺失时,根据lru[7:0]值来确定替换哪Cache块并且更新lru[7:0]的值。通过BWDSP模拟器对PLRU替换算法、指令Cache容量大小、Cache块大小、组相联映射进行仿真实验,最终得出指令Cache一组最优参数。2)高性能BWDSP处理器指令代码压缩。研究高性能BWDSP处理器以跳转块为代码压缩单元,利用LZW字典压缩和改进LZW字典压缩对指令代码经编译器和汇编器后生成二进制机器代码进行压缩,压缩的代码存储在指令存储器中,在指令存储器与指令Cache之间有译码单元。该方法不需要改变高性能BWDSP处理器的编译器、汇编器和BWDSP处理器内核流水线的级数。当指令Cache缺失时,译码单元对指令存储器存储的压缩代码进行解压。指令代码的跳转块首地址为行地址映射表(LAT)中一项的基地址,指令跳转块的指令地址就为LAT基地址加偏移地址得到。利用LAT来表示压缩前代码的地址和压缩后代码的地址对应关系,这样就能保证高性能BWDSP处理器的内核能够随机访问指令代码。在高性能BWDSP处理器指令代码压缩模拟器进行仿真,仿真结果表明代码压缩率在60%和55%左右。3)基于执行宏和指令域的代码压缩方法。研究指令域的代码压缩方法。该方法分为符号生成、符号建模和符号编码三个步骤。一条指令生成几个符号以及符号模型的建立对代码压缩率起着重要作用。本文以指令位置、指令类型和执行宏高阶模型来充分挖掘不同类型指令域内部符号之间的相关性。将执行宏模型和位置模型组合执行宏-位置混合模型,并用Huffman编码实现代码压缩。以高性能BWDSP处理器指令集,在高性能BWDSP处理器开发平台验证用Huffman编码对执行宏-位置混合模型生成符号的进行代码压缩,并得到50%左右的压缩率。4)为了保证高性能BWDSP处理器指令Cache设计的功能完备性,提出对高性能BWDSP处理器指令Cache功能验证。利用功能覆盖率对指令Cache设计的全部功能的描述转换。软件仿真器模型和RTL模型构建指令Cache功能验证测试平台。针对指令Cache中访存指令得出测试要求。最后得出覆盖率报告结果表明功能覆盖率达到100%。
孔祥岚[10](2008)在《MPEG-2 AAC解码算法研究及其在DSP平台上的实现》文中研究说明作为目前最新和最有效的高保真数字音频编码手段之一,MPEG-2 AAC具有压缩比高、重建音频质量好、编解码过程模块化和声道配置灵活等特点,在数字声音的存储、多媒体的网络传输和数字音频广播等领域得到日益广泛的应用。因此,对MPEG-2 AAC进行研究和实时实现具有重要的意义。由于MPEG-2 AAC编解码的算法复杂度较高,对处理器的运算能力和存储空间都有着很高的要求。Diamond 330HiFi音频处理器是Tensilica公司开发的音频专用DSP,其针对音频处理所提供的系统配置和加速指令,为面临实时性要求的AAC解码器提供了良好的应用环境。本文的目的是在Diamond 330HiFi音频处理器开发平台上实现一个高效实时的MPEG-2 AAC音频解码器。首先阐述了MPEG-2 AAC的算法原理,对AAC解码器中的重要模块进行了详细的介绍。根据各模块的复杂度分析,对解码器的关键模块进行了算法上的优化,主要包括针对Huffman解码模块的多种快速算法的实现,针对量化模块和滤波器组模块的降低运算复杂度的优化等。在此基础上,针对Diamond 330HiFi音频处理器的硬件结构和指令特点,对Huffman解码模块和滤波器组模块的核心运算用音频引擎平台专用的扩展指令改写,使解码复杂度明显降低,大大提高了解码效率。最后的测试分析结果表明,在Diamond 330HiFi平台上优化后的解码器可以对码流进行正确解码,且保证了较好的主观音频质量。在该平台上实现实时解码需要86.13MHz的时钟。本文的研究工作实现了MPEG-2 AAC解码器在专用的音频处理DSP平台上的实时解码,对于AAC标准的研究、推广和应用具有一定的实际意义。
二、采用多级查找表的定/变长解码引擎(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、采用多级查找表的定/变长解码引擎(论文提纲范文)
(1)基于算法-硬件协同设计的高性能人工智能计算(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.1.1 课题的背景:算力的需求和供应差距 |
1.1.2 高性能人工智能计算的目的和意义 |
1.2 国内外研究现状 |
1.2.1 通用处理器和领域专用架构 |
1.2.2 人工智能芯片 |
1.2.3 深度神经网络模型压缩与加速 |
1.2.4 现有研究中存在的不足 |
1.3 本文的主要研究内容 |
第2章 算法-硬件协同设计 |
2.1 引言 |
2.2 算法设计和硬件设计矛盾 |
2.3 高性能人工智能计算的算法-硬件协同设计方法 |
2.3.1 协同设计流程 |
2.3.2 算法优化方法 |
2.3.3 硬件定制方法 |
2.3.4 细粒度协同设计空间探索 |
2.4 本章小结 |
第3章 基于FPGA的搜索引擎选取服务加速 |
3.1 引言 |
3.2 背景和相关工作 |
3.2.1 选取服务 |
3.2.2 选取服务性能瓶颈分析 |
3.3 FlexSaaS异构加速器系统 |
3.3.1 系统概述 |
3.3.2 匹配算法-匹配处理器协同设计 |
3.3.3 索引流读取微结构定制 |
3.3.4 统一存储访问 |
3.3.5 系统灵活性和可扩展性支持 |
3.4 实验与分析 |
3.4.1 FlexSaaS系统实现 |
3.4.2 FPGA资源利用 |
3.4.3 加速分析 |
3.4.4 系统整体性能 |
3.5 本章小结 |
第4章 基于组平衡稀疏的模型压缩与加速 |
4.1 引言 |
4.2 背景和相关工作 |
4.2.1 非结构化稀疏与结构化稀疏 |
4.2.2 权值稀疏模型有效性和硬件高效性的权衡 |
4.3 组平衡稀疏神经网络 |
4.3.1 组平衡稀疏:硬件友好型稀疏模式 |
4.3.2 深度神经网络的组平衡剪枝(稀疏化)算法 |
4.3.3 组平衡稀疏矩阵乘法的GPU实现 |
4.4 实验与分析 |
4.4.1 组平衡剪枝分析 |
4.4.2 GPU矩阵乘法基准测试 |
4.4.3 不同任务和模型的实验结果 |
4.4.4 组大小分析 |
4.5 本章小结 |
第5章 基于FPGA的组平衡稀疏LSTM网络加速 |
5.1 引言 |
5.2 背景和相关工作 |
5.2.1 LSTM网络 |
5.2.2 稀疏神经网络硬件加速 |
5.3 基于FPGA的组平衡稀疏矩阵计算和存储 |
5.3.1 高并行稀疏矩阵向量乘法设计 |
5.3.2 无需解码的稀疏矩阵存储格式 |
5.4 基于FPGA的组平衡稀疏LSTM加速器 |
5.4.1 系统概述 |
5.4.2 稀疏矩阵向量乘法单元 |
5.4.3 向量按位操作单元 |
5.4.4 控制器 |
5.5 实验与分析 |
5.5.1 实验设置 |
5.5.2 量化组平衡稀疏模型 |
5.5.3 组平衡稀疏LSTM的FPGA加速器高效性 |
5.5.4 讨论:英伟达细粒度结构化稀疏和稀疏张量核 |
5.6 本章小结 |
第6章 基于数值量化预测特征稀疏的CNN加速 |
6.1 引言 |
6.2 背景和相关工作 |
6.2.1 卷积神经网络中的特征稀疏 |
6.2.2 模型稀疏化与数值量化相关工作 |
6.3 SeerNet设计与实现 |
6.3.1 基于数值量化预测特征稀疏 |
6.3.2 基于特征稀疏剪枝卷积计算 |
6.4 实验与分析 |
6.4.1 数据集和模型 |
6.4.2 模型整体准确率 |
6.4.3 推理加速 |
6.4.4 量化预测分析 |
6.5 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(2)基于可重构的网络报文处理关键技术及快速生成方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.1.1 应用背景 |
1.1.2 技术背景 |
1.2 可重构网络处理器设计 |
1.2.1 可重构芯片FPGA简介 |
1.2.2 可重构网络处理器定义 |
1.2.3 多核NP体系结构的应用及挑战 |
1.2.4 “Match-action”体系结构应用及挑战 |
1.3 应用开发技术简介及挑战 |
1.3.1 针对NP的应用开发 |
1.3.2 针对可重构芯片的开发 |
1.3.3 可重构“Match-action”流水线开发 |
1.4 主要研究内容及创新点 |
1.5 论文结构 |
第二章 相关研究工作 |
2.1 现有指令压缩方法 |
2.1.1 基于字典的压缩方法 |
2.1.2 基于统计的压缩方法 |
2.2 解析器设计相关研究 |
2.3 面向网络的可编程集成电路发展现状 |
2.4 面向网络的高层次综合技术发展现状 |
2.5 本章小结 |
第三章 可重构处理器内核压缩指令集定制 |
3.1 RISC-V指令集简介 |
3.1.1 指令集分类 |
3.1.2 RISC-V的优势及发展 |
3.2 压缩指令集定制方法 |
3.2.1 最小化指令集 |
3.2.2 压缩指令集重定制 |
3.2.3 交叉编译链的移植 |
3.3 实验结果及分析 |
3.3.1 静态代码压缩率 |
3.3.2 指令缓存失效率及性能 |
3.4 本章小结 |
第四章 “Match-action”流水线结构设计及优化 |
4.1 可重构“Match-action”流水线结构设计 |
4.2 主要输入输出端口设计 |
4.2.1 报文头切片端口 |
4.2.2 报文头向量端口和动作向量端口 |
4.3 “外部”功能组件设计 |
4.4 “Match-action”引擎设计与优化 |
4.4.1 “Match-action”表项的结构设计 |
4.4.2 表项依赖关系 |
4.4.3 “Match-action”引擎流水线设计 |
4.5 本章小结 |
第五章 基于流水线的协议无关(逆)解析器设计 |
5.1 解析器简介 |
5.1.1 报文头解析 |
5.1.2 报文头形态 |
5.1.3 报文封装 |
5.1.4 报文头解析过程 |
5.1.5 解析图简介 |
5.1.6 解析器设计所面临的挑战 |
5.2 解析器结构设计 |
5.2.1 解析图优化 |
5.2.2 解析器流水线结构 |
5.3 解析功能模块设计 |
5.3.1 解析处理模块硬件结构 |
5.3.2 协议类型识别器 |
5.3.3 报文头切片移位器 |
5.3.4 字段提取器 |
5.3.5 协议类型生成器 |
5.3.6 其他功能模块 |
5.4 逆解析器结构设计 |
5.4.1 逆解析器硬件结构 |
5.4.2 逆解析器单元设计 |
5.5 实验结果及其分析 |
5.5.1 移位器性能评估 |
5.5.2 解析器性能评估 |
5.6 本章小结 |
第六章 P4-VHDL的快速设计方法 |
6.1 P4 语言及程序开发简介 |
6.1.1 网络领域特定语言P4 |
6.1.2 P4 对(逆)解析器的描述 |
6.1.3 P4 对“Match-action”引擎的描述 |
6.2 转换流程 |
6.2.1 P4 程序解析 |
6.2.2 流水线规划及优化 |
6.2.3 映射及生成代码 |
6.3 模板库设计 |
6.3.1 建立模板 |
6.3.2 添加自定义模板 |
6.4 评估库设计 |
6.4.1 时序估算模型与综合结果 |
6.4.2 生成评估库 |
6.4.3 评估库的应用 |
6.4.4 评估方法 |
6.5 实验结果及分析 |
6.5.1 参数值的影响 |
6.5.2 功能模块比较 |
6.5.3 估计方法评估 |
6.5.4 应用实例评估 |
6.6 本章小结 |
第七章 结论与展望 |
7.1 本文的主要贡献 |
7.2 进一步的工作 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(3)基于处理器跟踪和控制流完整性的软件漏洞利用检测技术研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.2.1 基于编译器的静态防御技术研究现状 |
1.2.2 基于运行时保护的动态防御技术研究现状 |
1.2.3 研究现状总结 |
1.3 论文的主要工作和创新点 |
1.3.1 主要工作 |
1.3.2 主要创新点 |
1.4 论文结构安排 |
第二章 相关技术研究 |
2.1 软件漏洞分类及攻击方式研究 |
2.1.1 内存破坏类漏洞 |
2.1.2 软件漏洞利用技术 |
2.2 程序控制流动态监控技术研究 |
2.2.1 用户态动态插装技术 |
2.2.2 基于虚拟机的动态监控技术 |
2.2.3 处理器控制流跟踪技术 |
2.3 程序控制流图构建技术研究 |
2.3.1 基于静态分析的控制流图构建技术 |
2.3.2 基于动态分析的控制流图构建技术 |
2.4 本章小结 |
第三章 基于处理器跟踪和控制流完整性的软件漏洞利用检测技术研究 |
3.1 技术框架 |
3.2 基于IPT的程序控制流监控技术 |
3.2.1 Intel Processor Trace(IPT) |
3.2.2 程序控制流监控方法设计 |
3.3 基于IPT数据包的指令执行流恢复技术 |
3.3.1 程序代码空间恢复 |
3.3.2 IPT数据包全解码 |
3.4 基于动静结合的控制流图生成技术 |
3.4.1 原始控制流图构建 |
3.4.2 基于执行监控的跳转边补充 |
3.4.3 程序完整控制流图构建 |
3.5 基于控制流检查的漏洞利用行为识别技术 |
3.5.1 基于哈希查找的异常控制流搜索 |
3.5.2 漏洞利用行为识别方法设计 |
3.6 本章小结 |
第四章 基于处理器跟踪和控制流完整性的软件漏洞利用检测技术实现 |
4.1 需求分析 |
4.2 主要功能模块设计与实现 |
4.2.1 程序运行时监控模块 |
4.2.2 线下分析模块 |
4.2.3 完整性检查模块 |
4.3 本章小结 |
第五章 系统测试与分析 |
5.1 性能测试 |
5.2 安全性测试 |
5.3 实际漏洞利用检测 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 论文工作总结 |
6.2 后续工作展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文 |
(4)集成电路追踪系统数据压缩与调试系统设计技术研究(论文提纲范文)
摘要 |
ABSTRACT |
缩略语对照表 |
第一章 绪论 |
1.1 引言 |
1.2 VLSI电路验证流程 |
1.2.1 硅前验证技术 |
1.2.2 制造测试技术 |
1.2.3 硅后验证技术 |
1.3 国内外研究现状 |
1.4 论文研究内容和贡献 |
1.5 论文的组织结构 |
第二章 调试系统信号监测模块设计 |
2.1 信号监测结构设计 |
2.1.1 分布式片上监测信号选择 |
2.1.2 广播式片上监测信号选择 |
2.2 片上逻辑分析仪 |
2.2.1 片上逻辑分析仪设计 |
2.2.2 片上逻辑分析仪总线追踪应用 |
2.2.3 片上逻辑分析仪功耗分析应用 |
2.2.4 片上逻辑分析仪备用电路应用 |
2.3 本章小结 |
第三章 片上调试追踪系统设计 |
3.1 典型数据追踪系统 |
3.1.1 典型仲裁器追踪系统 |
3.1.2 仲裁器追踪时间戳设计 |
3.1.3 仲裁器追踪数据带宽优化 |
3.1.4 仲裁追踪溢出监测器设计 |
3.2 总线访问追踪系统 |
3.3 单向NoC的数据追踪系统 |
3.3.1 单向NoC追踪系统簇划分 |
3.3.2 单向NoC追踪系统网络接口协议 |
3.3.3 单向NoC追踪系统延迟计算 |
3.3.4 单向NoC追踪系统路由器设计 |
3.3.5 单向NoC追踪系统实现 |
3.3.6 单向NoC追踪系统调试实例 |
3.3.7 单向NoC追踪系统结果分析 |
3.4 追踪系统数据输出 |
3.4.1 追踪数据外设存储器输出设计 |
3.4.2 追踪数据引脚输出 |
3.5 本章小结 |
第四章 追踪系统数据压缩 |
4.1 追踪指令压缩 |
4.1.1 内核指令特征 |
4.1.2 指令压缩探测电路 |
4.2 数据无损压缩 |
4.2.1 LZ77算法硬件优化设计 |
4.2.2 哈夫曼高速移位拼接 |
4.2.3 无损压缩验证平台 |
4.2.4 无损压缩测试结果 |
4.3 追踪输出结构中的压缩单元 |
4.4 本章小结 |
第五章 片上调试系统设计 |
5.1 片上调试技术 |
5.1.1 JTAG片上调试技术研究 |
5.1.2 通用总线接口调试设计 |
5.2 多核片上调试设计 |
5.2.1 交叉触发接口及矩阵设计 |
5.2.2 多核调试系统交叉触发矩阵设计 |
5.3 多核系统暂停模式 |
5.4 硬件系统核心存储设计 |
5.5 本章小结 |
第六章 混合信号测试系统设计 |
6.1 混合信号电路测试相关问题 |
6.2 射频信号电路内建自测 |
6.2.1 射频内建自建测试结构 |
6.2.2 射频内建自测校准电路 |
6.2.3 通过CORDIC进行数字傅里叶变换 |
6.2.4 低成本DSP信噪比计算 |
6.2.5 测量结果分析 |
6.3 本章小结 |
第七章 总结与展望 |
7.1 研究结论 |
7.2 展望 |
参考文献 |
致谢 |
作者简介 |
(5)时空高效的倒排索引压缩和求交算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 引言 |
1.2 研究背景和意义 |
1.3 研究问题与内容 |
1.4 论文组织结构 |
第二章 倒排索引压缩与求交相关背景知识 |
2.1 现代硬件体系结构 |
2.2 倒排索引结构 |
2.3 倒排索引的压缩算法 |
2.3.1 面向整数的压缩算法 |
2.3.2 面向分块的压缩算法 |
2.3.3 SIMD Compression |
2.4 倒排链表的求交算法 |
2.4.1 多倒排链求交算法 |
2.4.2 搜索算法 |
2.5 本章小结 |
第三章 基于最优划分的倒排索引压缩算法 |
3.1 引言 |
3.2 基于近似划分的分块压缩算法 |
3.2.1 基于DAG的倒排索链表划分策略 |
3.2.2 Extended AFOR压缩算法 |
3.2.3 最优划分的VSEncoding压缩算法 |
3.3 自启发式划分的Elias-Fano索引压缩算法 |
3.3.1 分块Elias-Fano索引 |
3.3.2 线性划分策略 |
3.4 实验测试与结果分析 |
3.4.1 基于近似划分的分块压缩算法测试 |
3.4.2 自启发式划分的Elias-Fano索引压缩算法测试 |
3.5 本章小结 |
第四章 混合索引在双权重标准下的时空均衡优化算法 |
4.1 引言 |
4.2 双权重标准压缩 |
4.2.1 帕累托最优压缩 |
4.2.2 基于双权重DAG的混合索引 |
4.2.3 双权重标准下的混合索引问题定义 |
4.3 混合式倒排索引压缩算法 |
4.3.1 基于线性规划的最优压缩策略 |
4.3.2 变长分块索引算法设计 |
4.4 实验测试与结果分析 |
4.4.1 压缩性能 |
4.4.2 查询性能 |
4.5 本章小结 |
第五章 基于并行指令集的倒排链快速求交算法 |
5.1 引言 |
5.2 并行的多倒排链求交算法 |
5.2.1 基于SIMD的线性查找算法 |
5.2.2 基于SIMD的跳跃式查找算法 |
5.3 面向基于SIMD多倒排链求交的双尺度搜索算法 |
5.4 实验测试和结果分析 |
5.4.1 实验设置 |
5.4.2 实验结果 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 本文工作总结 |
6.2 未来研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(6)基于HEVC的CABAC熵解码器设计与实现(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 绪论 |
1.1 HEVC研究背景 |
1.2 HEVC标准发展过程 |
1.3 HEVC国内外研究现状 |
1.4 论文研究意义及内容 |
1.5 论文主要内容及结构安排 |
第二章 HEVC编解码相关技术研究及分析 |
2.1 HEVC编解码基本流程 |
2.2 码流结构分析 |
2.2.1 HEVC码流结构 |
2.2.2 CTU的划分 |
2.3 CABAC熵编解码原理 |
2.3.1 传统算术编解码 |
2.3.2 CABAC中的算术编解码 |
2.3.3 上下文建模 |
2.3.4 反二值方法 |
2.4 残差系数编解码方法 |
2.4.1 非零系数位置信息解码 |
2.4.2 非零系数的幅值信息解码 |
2.5 本章小结 |
第三章 CABAC熵解码器电路设计 |
3.1 引言 |
3.2 本文的改进思路 |
3.3 CABAC熵解码器总体架构 |
3.3.1 CABAC熵解码电路工作原理 |
3.4 码流控制模块 |
3.4.1 码流解析状态机 |
3.4.2 残差系数快速扫描模块 |
3.5 码流缓冲模块 |
3.6 上下文建模模块 |
3.6.1 上下文初始化模块 |
3.6.2 上下文索引ctxIdx生成模块 |
3.7 算术解码模块 |
3.7.1 常规解码模块 |
3.7.2 旁路解码模块 |
3.7.3 终止解码模块 |
3.8 反二值化模块 |
3.8.1 截断莱斯(TR)反二值化 |
3.8.2 定长(FL)反二值化 |
3.8.3 指数哥伦布(EGk)反二值化 |
3.8.4 查找表反二值化 |
3.9 本章小结 |
第四章 CABAC熵解码器仿真验证及性能分析 |
4.1 实验目的 |
4.2 实验配置 |
4.2.1 HEVC标准码流的提取 |
4.2.2 参考软件HM |
4.3 CABAC熵解码器功能仿真以及FPGA验证 |
4.3.1 上下文初始化模块仿真 |
4.3.2 码流缓冲模块仿真 |
4.3.3 上下文建模模块仿真 |
4.3.4 算术解码模块仿真 |
4.3.5 反二值化模块仿真 |
4.3.6 残差系数快速扫描模块仿真 |
4.3.7 CABAC熵解码器FPGA验证 |
4.4 实验结果及性能分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
攻读硕士学位期间的学术活动及成果情况 |
(7)基于CICQ结构的交换机关键技术及其实现研究(论文提纲范文)
摘要 |
ABSTRACT |
主要符号表 |
第一章 绪论 |
1.1 研究背景 |
1.1.1 交换机的发展 |
1.1.2 交换机芯片的现状 |
1.1.3 交换结构的概述 |
1.2 CROSSBAR交换结构及关键算法的研究现状 |
1.2.1 基于crossbar的交换结构 |
1.2.2 不同crossbar交换结构的特性 |
1.2.3 CICQ结构的调度算法研究 |
1.2.3.1 基于输入队列权重的调度算法 |
1.2.3.2 基于轮询机制的调度算法 |
1.2.3.3 基于交叉点队列状态的调度算法 |
1.2.3.4 结合输入队列和交叉点队列的调度算法 |
1.2.4 变长数据包切分机制研究 |
1.3 本论文的主要内容及结构安排 |
第二章 CICQ结构的调度算法研究 |
2.1 引言 |
2.2 一种最关键队列优先的CICQ调度算法 |
2.2.1 CICQ结构模型及基本定义 |
2.2.2 公平性问题分析 |
2.2.3 MCQF_RR调度算法描述 |
2.2.4 MCQF_RR的特性分析 |
2.3 一种改进的最关键队列优先的调度算法 |
2.3.1 压缩权重信息产生 |
2.3.2 IMCQF_RR调度算法描述 |
2.3.3 IMCQF_RR的特性 |
2.4 算法性能仿真 |
2.4.1 仿真设置 |
2.4.2 时延性能 |
2.4.2.1 均匀流量 |
2.4.2.2 非均匀流量 |
2.4.3 算法公平性 |
2.5 算法综合分析 |
2.6 本章小结 |
第三章 变长数据包切分机制研究 |
3.1 引言 |
3.2 现有的数据包切分机制 |
3.2.1 定长单包切分 |
3.2.2 定长多包切分 |
3.2.3 变长单包切分 |
3.2.4 变长多包切分 |
3.3 一种高效自适应的数据包切分机制 |
3.3.1 带切片-重组的CICQ结构模型 |
3.3.2 传统变长多包切分的问题 |
3.3.3 自适应变长多包切分机制 |
3.4 切片机制仿真分析 |
3.4.1 仿真环境和流量模型 |
3.4.2 时延性能 |
3.5 本章小结 |
第四章 CICQ交换机体系结构设计 |
4.1 引言 |
4.2 CICQ交换机体系架构 |
4.3 端口控制模块 |
4.3.1 FC-0 层 |
4.3.2 FC-1 层 |
4.3.3 FC-2P层 |
4.4 数据转发模块 |
4.4.1 帧切分模块设计 |
4.4.1.1 切分基本原理 |
4.4.1.2 帧切分模块内部结构 |
4.4.1.3 帧预切分处理单元 |
4.4.1.4 接收数据缓存与接收信息缓存 |
4.4.1.5 信元生成与发送单元 |
4.4.2 帧重组模块 |
4.5 数据交换模块 |
4.5.1 VOQ缓存队列 |
4.5.2 输入调度器 |
4.5.3 交叉点缓存队列 |
4.5.4 输出调度器 |
4.6 交换机结构整体仿真 |
4.7 本章小结 |
第五章 网络流量模型分析与流量生成方法研究 |
5.1 网络流量模型分析 |
5.1.1 传统流量模型 |
5.1.1.1 泊松模型 |
5.1.1.2 马尔科夫模型 |
5.1.1.3 传统流量模型的缺陷 |
5.1.2 自相似流量模型 |
5.1.2.1 自相似过程 |
5.1.2.2 自相似流量模型 |
5.1.2.3 Hurst参数估计方法 |
5.2 现有的流量产生方案 |
5.2.1 基于硬件的流量生成器 |
5.2.2 基于软件的流量生成器 |
5.2.3 基于FPGA的流量生成器 |
5.3 基于汇聚过程的流量生成器 |
5.3.1 基于汇聚过程的模型 |
5.3.2 流量生成器的整体结构 |
5.3.3 Bernoulli源的汇聚过程 |
5.3.3.1 泊松序列生成 |
5.3.3.2 流量统计特性分析 |
5.3.4 ON/OFF源的汇聚过程 |
5.3.4.1 ON/OFF周期长度确定 |
5.3.4.2 自相似序列生成 |
5.3.4.3 流量统计特性分析 |
5.3.5 硬件资源开销与综合比较 |
5.4 本章小结 |
第六章 交换机性能验证平台设计 |
6.1 软硬件协同实现的交换机性能验证平台 |
6.1.1 交换机的性能指标 |
6.1.2 性能验证平台的总体结构 |
6.1.3 验证平台的软件部分 |
6.1.4 验证平台的硬件部分 |
6.1.4.1 流量生成器IP |
6.1.4.2 流量监测器IP |
6.1.4.3 控制单元IP |
6.2 性能验证平台的应用 |
6.2.1 4×4 交换机原型的验证测试方案 |
6.2.2 Poisson流量下测试时延 |
6.2.3 自相似流量下测试时延 |
6.2.4 测试公平性 |
6.3 本章小结 |
第七章 全文总结与展望 |
7.1 全文总结 |
7.2 后续工作展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的成果 |
(8)基于移动智能终端的视像信号处理技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 前言 |
1.1.1 移动通信系统的发展 |
1.1.2 视像信号处理系统的发展 |
1.3 移动终端视像信号处理系统的国内外发展现状 |
1.4 本论文的选题意义 |
1.5 论文的内容安排和主要创新点 |
第二章 移动智能终端的视像信号处理系统 |
2.1 移动智能终端系统 |
2.2 基于移动智能终端的视像信号处理系统 |
2.3 本章小结 |
第三章 基于移动智能终端的视像信号处理系统技术研究 |
3.1 镜头校正与补偿技术研究 |
3.1.1 镜头渐晕现象的分类 |
3.1.2 镜头渐晕现象的理论分析 |
3.1.3 渐晕现象的起因及图像色彩不均匀性 |
3.1.4 本文提出的抗渐晕算法 |
3.2 图像自适应校正及补偿技术研究 |
3.2.1 黑电平补偿 |
3.2.2 自适应白平衡 |
3.2.3 色彩校正 |
3.2.4 伽马校正 |
3.2.5 噪声校正 |
3.2.6 色彩空间转换 |
3.3 AVS高清视频压缩技术研究 |
3.3.1 AVS视频编解码技术 |
3.3.2 AVS视频解码算法结构 |
3.3.3 AVS视频环形滤波技术 |
3.3.4 AVS视频重构帧存储技术 |
3.4 本章小结 |
第四章 移动智能终端视像信号处理系统的VLSI实现 |
4.1 基于流水线设计的视像处理系统 |
4.2 图像数据结构简介 |
4.3 多功能接口控制器设计 |
4.3.1 接口控制器架构设计 |
4.3.2 接口控制器的控制机制设计 |
4.4 基于流水线设计的数字图像信号处理系统 |
4.4.1 基于移动终端的图像信号处理系统设计 |
4.4.2 基于移动终端的视频信号处理系统设计 |
4.5 本章小结 |
第五章 移动智能终端的视像信息处理芯片的FPGA验证 |
5.1 FPGA测试系统搭建 |
5.1.1 FPGA方案选取 |
5.1.2 测试系统主要器件选型 |
5.1.3 FPGA测试流程 |
5.1.4 FPGA测试系统环境搭建 |
5.2 FPGA测试系统验证 |
5.2.1 设计原型的综合 |
5.2.2 镜头校正与补偿技术FPGA验证及测试 |
5.2.3 ISP的FPGA验证及测试 |
5.2.4 VSP的FPGA验证及测试 |
5.3 移动智能应用处理器系统级芯片及参考板照片 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 未来研究方向展望 |
参考文献 |
发表论文和科研情况说明 |
致谢 |
(9)高性能BWDSP处理器指令Cache研究与设计(论文提纲范文)
摘要 |
Abstract |
致谢 |
第一章 绪论 |
1.1 数字信号处理器研究现状及发展趋势 |
1.1.1 DSP 处理器国外研究现状 |
1.1.2 DSP 处理器国内发展现状 |
1.2 DSP 处理器的基本特点 |
1.3 课题背景及意义 |
1.4 本文的主要贡献 |
1.5 论文主要结构 |
第二章 高性能 BWDSP 处理器指令 Cache 设计 |
2.1 DSP 片内 Cache |
2.2 高性能 BWDSP 处理器指令 Cache |
2.2.1 高性能 BWDSP 处理器指令存储系统 |
2.2.2 Cache 行 |
2.2.3 地址映射关系 |
2.2.4 高性能 BWDSP 处理器指令 Cache 参数 |
2.2.5 高性能 BWDSP 处理器指令 Cache 时序设计 |
2.3 指令 Cache 替换算法 |
2.4 指令 Cache 的仿真实验 |
2.5 小结 |
第三章 高性能 BWDSP 处理器指令代码压缩技术 |
3.1 DSP 处理器片内 Cache 代码压缩技术 |
3.2 指令代码压缩技术 |
3.2.1 指令代码压缩的数学描述 |
3.2.2 高性能 BWDSP 处理器指令代码压缩 |
3.2.3 代码压缩关键问题 |
3.3 高性能 BWDSP 处理器指令集 |
3.4 高性能 BWDSP 处理器指令代码的 LZW 字典压缩 |
3.4.1 BWDSP 指令代码压缩的 LAT |
3.4.2 BWDSP 指令代码 LZW 字典压缩 |
3.4.3 改进 LZW 字典压缩 |
3.5 BWDSP 指令代码 LZW 压缩和改进 LZW 压缩仿真结果 |
3.6 小结 |
第四章 基于执行宏和指令域的代码压缩方法 |
4.1 符号建模的理论基础 |
4.1.1 零阶模型 |
4.1.2 高阶模型 |
4.2 符号生成 |
4.3 符号建模 |
4.3.1 指令位置模型 |
4.3.2 指令类型模型 |
4.3.3 执行宏模型 |
4.3.4 混合模型 |
4.4 Huffman 编码 |
4.4.1 二级 huffman 表 |
4.4.2 根码表码字 |
4.5 huffman 硬件指令解码器 |
4.5.1 霍夫曼解码器 |
4.5.2 查找表 |
4.5.3 模型控制单元 |
4.5.4 符号组合单元 |
4.6 实验结果 |
4.7 小结 |
第五章 高性能 BWDSP 处理器指令 Cache 功能验证 |
5.1 引言 |
5.2 功能验证方法与测试平台 |
5.2.1 功能验证方法 |
5.2.2 测试平台的建立 |
5.3 针对 BWDSP 指令 Cache 的功能验证 |
5.4 测试结果 |
5.5 小结 |
第六章 总结与展望 |
6.1 本文研究总结 |
6.2 未来研究工作 |
参考文献 |
攻读博士学位期间发表的论文 |
攻读博士学位期间参加的科研项目 |
附录一 |
附录二 |
附录三 |
(10)MPEG-2 AAC解码算法研究及其在DSP平台上的实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 音频压缩编码的产生 |
1.2 音频压缩编码的发展 |
1.3 音频压缩编码的原理 |
1.4 本文的任务与结构 |
第二章 MPEG-2 AAC算法原理 |
2.1 AAC分层框架 |
2.2 AAC的解码流程 |
2.3 AAC解码的关键模块 |
2.3.1 无噪解码 |
2.3.2 反量化 |
2.3.3 立体声解码 |
2.3.4 预测 |
2.3.5 时域噪声整形 |
2.3.6 滤波器组 |
2.3.7 增益控制 |
2.4 本章小结 |
第三章 Diamond 330HiFi音频处理器介绍 |
3.1 引言 |
3.2 Diamond标准系列处理器内核 |
3.2.1 概述 |
3.2.2 Diamond处理器内核 |
3.2.3 Diamond系列处理器硬件结构体系及指令特点 |
3.3 Diamond 330HiFi音频处理器 |
3.3.1 Diamond 330HiFi音频处理器的硬件结构 |
3.3.2 Diamond 330HiFi音频处理器的特点和优势 |
3.3.3 音频指令总结 |
3.4 硬件平台的优化方法 |
3.4.1 编译器的使用 |
3.4.2 TIE指令优化 |
3.5 本章小结 |
第四章 解码器复杂度分析及算法优化 |
4.1 解码器复杂度分析 |
4.2 定点化处理 |
4.2.1 定点化 |
4.2.2 查表法 |
4.2.3 其它运算优化及优化结果分析 |
4.3 关键模块的算法优化 |
4.3.1 Huffman模块 |
4.3.2 反量化 |
4.3.3 滤波器组 |
4.4 本章小结 |
第五章 解码器在Diamond 330HiFi音频引擎上的优化 |
5.1 基于Diamond 330HiFi编译器的优化 |
5.2 关键模块的AE指令改写 |
5.2.1 Huffman解码模块 |
5.2.2 滤波器组模块 |
5.2.3 结果分析 |
5.3 本章小结 |
结束语 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
四、采用多级查找表的定/变长解码引擎(论文参考文献)
- [1]基于算法-硬件协同设计的高性能人工智能计算[D]. 曹士杰. 哈尔滨工业大学, 2021
- [2]基于可重构的网络报文处理关键技术及快速生成方法研究[D]. 曹壮. 国防科技大学, 2020
- [3]基于处理器跟踪和控制流完整性的软件漏洞利用检测技术研究与实现[D]. 刘博寒. 北京邮电大学, 2020(05)
- [4]集成电路追踪系统数据压缩与调试系统设计技术研究[D]. 朱嘉. 西安电子科技大学, 2019(01)
- [5]时空高效的倒排索引压缩和求交算法研究[D]. 宋省身. 国防科技大学, 2018(02)
- [6]基于HEVC的CABAC熵解码器设计与实现[D]. 马世碧. 合肥工业大学, 2018(02)
- [7]基于CICQ结构的交换机关键技术及其实现研究[D]. 王晓婷. 电子科技大学, 2016(04)
- [8]基于移动智能终端的视像信号处理技术研究[D]. 朱胜利. 天津大学, 2014(08)
- [9]高性能BWDSP处理器指令Cache研究与设计[D]. 洪兴勇. 合肥工业大学, 2013(04)
- [10]MPEG-2 AAC解码算法研究及其在DSP平台上的实现[D]. 孔祥岚. 天津大学, 2008(09)