图片、文字、表格的快速输入——OCR文字识别技术（一）

一、图、文、表的快速输入——OCR文字识别技术(一)（论文文献综述）

任多^[1]（2021）在《面向金融业务的表单票据通用识别系统研究》文中研究说明在金融业务中,存在大量如报销、核验等对表单票据进行识别的需求。传统的文字识别算法对图像质量要求很高,且识别精度较低,具有更高准确率和鲁棒性的深度学习算法成为近年来的发展趋势。目前基于深度学习的表单票据识别中尚存在若干难题:一是票据可能存在弯曲折叠的情况,导致文本行不平直,从而影响文字识别;二是财务报表中存在无边框表格,通用语义分割模型无法准确定位识别;三是印章中的弯曲文本识别存在较大困难。本文围绕上述表单票据识别中的若干难题展开研究,取得的主要研究成果如下:（1）针对表单票据存在折叠和弯曲的情况,使用改进的扭曲文档矫正模型DocUNet进行矫正。模型结构为两个U-Net级联,并在第一个U-Net中加入SE模块以增强特征提取能力。第一个U-Net预测出一个大致的复原预测图,第二个U-Net对其进行高分辨率修正,从而预测出表单中每一个像素的偏移量,实现对图像的矫正。（2）分别使用基于MobileNet-v2的Sea1SSD模型、带有注意力机制和SE模块的AttentionDB模型和ASTER模型进行印章区域定位、印章内弯曲文本检测和弯曲文本识别。通过采用复杂的特征融合机制提高分割准确率,通过提高感受野的范围增强对小文本和模糊文本的定位效果,通过基于CRF的文本矫正网络进行文字纠错。模型对印章内弯曲文本的定位精度达95.6%,文字识别精度达96.1%,接近水平文本的定位和识别精度。（3）使用带有注意力机制和SE模块的Table-UNet模型对表单中的表格进行定位提取。通过为表格内像素分配更多权重的方式,使模型更聚焦于表格区域内部。通过精心设计的后处理,将预测的表格区域分割图还原为四边形。采用同样的模型对表格线进行提取,并将卷积核设置成较大的长宽比以适应其特点。结果表明,模型在自建财务报表数据集上的识别精度达95.1%,优于PageNet、dhSegment等主流表格识别模型。（4）开发出一种基于Web的表单票据通用识别系统,可以实现对常用发票和财务报表的图像扭曲矫正、印章定位与识别、表格识别和文字识别等多种功能,系统具有较高的识别精度、较强的鲁棒性和较快的响应速度。

梁国贤^[2]（2021）在《基于深度学习的化验单内容提取技术研究》文中提出人工智能的发展给医疗行业注入了强大的活力,依托人工智能技术的医学辅助诊断系统,可以有效地解决“患多医少”的压力,同时也能减少医学中的误诊现象,减少医患纠纷的发生。将化验单图像内容准确转换成结构化数据是医学辅助诊断系统安全可靠运行的保证,此外患者手上的纸质化验单图像数据也是医疗大数据的重要来源,中文化验单包含了中英文、符号和数字等混排形式的字符,且目前尚缺乏相关的公开数据集,如何将化验单内容准确自动转换成结构化计算机可直接使用的数据,化验单图像内容识别技术尤为重要。本文依托计算机图像处理技术,对化验单内容识别技术相关算法进行了研究分析,设计了一套化验单内容提取系统。主要工作概括如下:首先,对化验单图像预处理算法进行分析研究,针对如何有效地从复杂背景下正确提取化验单图像区域,提出了使用融合算子对化验单图像进行边缘检测。相较于使用单一算子,该方法使得在背景复杂情况下,依然能很好地提取到化验单图像的边缘信息;研究了不同的化验单图像二值化算法,提出采用二维的大津算法对化验单图像进行二值化。该方法很好地解决了化验单图像在二值化过程中出现文字断裂和大量墨块问题。其次,深入研究了基于深度学习的化验单图像文本检测算法,提出了基于深度学习的多特征融合文本检测算法,该方法将VGG、Inception、Resnet特征提取网络融合到原始EAST算法中,能有效地解决以投影法为代表的传统检测算法得到的文本框不准确以及当前深度学习方法出现对文本框特别是长文本框出现漏检严重的现象。此外,对基于单字识别方式的化验单文本识别算法进行分析研究,并基于Tesseract-OCR单字识别模型,提出了本文改进方法。该方法使用本文提出的文本检测算法,代替原模型中的文本区域检测模块,配合Tesseract-OCR模型的识别模组进行识别任务,识别准确率得到极大的提升,但依然受限于模型字符分割的效果,对形近字和左右结构字识别效果不佳。于是提出了改进的CRNN端到端序列识别模型,该方法在CRNN的基础上,使用ResNet101-IBN（b）网络进行特征提取,并采用特征重用技巧,在加深网络深度的同时提升了模型的性能,识别准确率得到进一步的提升。最后,基于PyQt平台,开发了一套中文化验单内容提取系统,经过调试验证,该系统能较好地完成识别任务,将化验单图像内容转换成结构化数据,满足使用要求。

江焜^[3]（2021）在《基于卷积神经网络的城市井盖检测系统设计与实现》文中研究说明随着智慧城市管理系统进程不断推进,城市井盖检测属于智慧城市管理系统的关键环节。井盖的缺失和损坏会造成严重的交通事故和难以预料的经济损失,可见城市井盖的检测识别是相当重要的。井盖的检测必须要有精确的井盖信息,得到精确的井盖信息后,将这些精确的信息反馈给相应部门进行检修,若通过人工检测录入,会出现效率低、耗时多、精确度低等问题。通过传统的图像算法难以解决自然场景过于复杂、路面与井盖相似度过高等问题。本文通过对当下主流的图像实例分割模型算法进行改进,探索适用于复杂自然场景的实例分割模型算法,设计的基于卷积神经网络的城市井盖检测系统,实现智慧城市井盖图像的检测与识别。提出了一种融合注意力机制的深度学习实例分割模型和图像多尺度分割算法进行城市井盖的检测方法,在图像中检测出井盖的信息后,通过OCR文字识别,得到井盖的具体信息,最终将这些具体信息以文本的形式输出。论文主要做的工作如下:（1）设计并且实现了一种井盖图像的小样本图像增强的方法,提出了一种基于城市井盖的数据集,其包含了对井盖图像的网络爬虫以及小样本图像增强方法,同时将得到的井盖图像进行预处理筛选出作为训练数据集部分。（2）通过Labelme标注软件人工手动标注得到的井盖数据集,并将数据集拆分为训练集、测试集、验证集三个部分供后续图像实例分割模型学习训练。（3）设计并且改进了当下主流的图像实例分割模型算法,解决了传统图像算法对自然场景丰富的图像的不适用性,实现井盖图像的精准快速检测,为后续提取井盖图像上的文字奠定基础,显着提高了井盖图像文字识别精确率。（4）设计并调研了CTPN算法的文字识别方法,并通过OCR开放文字平台对CTPN算法文字识别方法精度的验证和识别效果的提升,在一定程度上提高了文字检测识别的精确率。（5）开发了一套适用于城市井盖检测的系统平台,结合了本文中的一些小样本的井盖数据集增强、手动Labelme标注验证、引入通道注意力机制模块的图像实例分割模型的搭建以及CTPN算法加上OCR文字开方平台对字符的检测校验,实现了城市井盖检测的批量化、自动化进程。此外本系统平台还包括了人工自动校验的功能,能够进一步的提高城市检测的识别准确率和精确率。

仁青东主^[4]（2021）在《基于深度学习的藏文古籍木刻本文字识别研究》文中研究指明文字识别（Character Recognition,CR）是利用计算机将人们可理解的文字或者图像信息自动转化为计算机可以阅读、查询与编辑的以计算机内码表示的方法。藏文是藏族文化的重要载体,在我国历史上藏文撰写的各类典籍数量仅次于汉文,是中华文化宝库中的瑰宝,具有重要的人文科学研究及应用价值。藏文文字识别是藏语计算语言学科的一项重要研究内容,涉及信息科学、数学、语言科学、认知科学以及其它方面的领域。因此,使用藏文文字识别来保护和使用藏文古籍文献已成为文献资源数字化的一个重要研究热点。然而,受制于藏文古籍文献数字化无损采集、版面分析、文字识别等技术的不成熟,很多珍贵文献、易破损的纸质文献无法采集和数字化。已数字化的藏文古籍文献资源数据也以图像信息为主,文献内容挖掘和知识库构建、检索技术研发都缺乏数据支撑。在藏文古籍文献中以木刻本形式文献占据数量最多,从而藏文古籍木刻本文字识别的研究尤为重要,国内外一些高校和企业开发了光学字符识别系统（Optical Character Recognition,OCR）,以识别印刷体藏文,据可查文献,针对藏文古籍木刻本文字识别的研究甚少。从目前已有的文献看,国内外藏文文字识别技术还停留在传统的方法上,没有融入藏文语言结构及文字构成规律,识别精度低,泛化能力弱,无法达到藏文文献数字保护和使用需求,亟待研发高识别率、高精度、高性能的数字化技术。深度学习技术近几年发展很快,在文字识别领域,该技术比传统的识别方法要优越很多,识别效果也明显。随着深度学习研究的深入,如何利用深度学习来进行端到端的学习,并摒弃基于人工规则的中间步骤,以提升序列学习的效果已经成为当前研究的热点。本文的研究基于深度学习的藏文古籍木刻本文字识别,提出基于深度神经网络的藏文古籍木刻本图像文字识别新方法,其主要贡献概括如下:（1）针对藏文古籍木刻本复杂版面特征,研究一种基于CTPN的文本检测算法,实现藏文古籍木刻本复杂版式文字的纵横向检测。（2）针对藏文古籍木刻本超长行特征,研究一种基于滑动窗的超长文本行动态拆分与识别技术,进行基于字符识别位置信息的相邻子块重叠字符处理,解决超长文本行古籍文字识别难题。（3）构建基于残差网络和双向长短时记忆循环神经网络、结合样本增强技术的具有高泛化性和鲁棒性的藏文古籍串识别模型,解决图像质量差、相邻文字粘连严重、上下行重叠度大的古籍文字识别难题。（4）采用拼写检查的方法进行错误音节的检测,并且用隐马尔科夫模型与语言模型相结合的方法,解决形态相似字符的识别校正难题。

王鉴宇^[5]（2021）在《基于深度学习的文本检测识别技术的研究及其应用》文中研究指明当前对快递单关键字段的快速、准确识别是一项具有挑战的任务,目前市面上还没有一款能同时兼顾速度和准确性的快递单光学字符识别（Optical Character Recognition,OCR）算法系统。一套快速准确的快递单OCR算法系统能够显着提高快递相关从业者的工作效率,加速物资和资金的流动,促进国内“内循环”,对国民经济的发展起到催化作用。此外,非接触式信息录入在疫情期间也更为安全。为了加快物资、资金的流动,研发一款快速准确的快递单OCR算法系统刻不容缓。当前快递单OCR算法系统的开发主要面临以下五个问题:1)快递单在拍摄图片中占比较小;2)快递单相关数据较少;3)快递单数据人工标注时间太长;4)图片方向难以确定;5)快递单OCR算法系统的识别速度太慢。本文通过研究基于深度学习的OCR技术开发了一套“快递单关键字段的智能提取”OCR算法系统。整个系统除了常规的文本检测模块和文本识别模块外,针对快递单在拍摄图片中占比较小创新的开发了快递单主体快速检测模块;针对快递单相关数据少的问题创新的开发了数据模拟合成模块;针对快递单数据人工标注时间太长创新的开发了快速数据标注流程模块;针对图片方向难以确定创新的开发了图像的快速旋转矫正模块;针对快递单OCR系统的识别速度过慢除了选用当前最快的文本检测模型之外,还创新的开发了文本框挑选算法、条形码检测模块、特定信息快速提取算法并使用并行计算在整个系统内部做了加速。最后通过多个实验对比充分说明了本文快递单OCR系统的可靠性和先进性。目前“快递单关键字段的智能提取”OCR算法系统的延展项目已成功部署在阿里云上,并已在某高校上线,它能供客户公司各地网点的快递员使用,其每天的调用量级为105。速度方面,在手机场景下,实现并发量8个/s;在工业相机场景下,实现500ms/张的速度。准确率方面,收件人手机号码准确率96%,收件人地址准确率90%,条形码准确率97%,三段码准确率97%,快递公司准确率98%。快递单OCR算法系统的落地具有较好的实际意义和应用价值,本文所提出的快递单OCR系统被证明是当前准确率较好且速度最快的系统。

包迪^[6]（2021）在《基于Yolo V4+Word2Vec的试卷问答题评分算法研究》文中研究指明在教育领域,问答题题型广泛用于各种考试中。以往针对问答题的自动评分研究吸引了大量学者研究,且大都面向电子版文档。而目前的作业、试题大都以纸质文档为主,故距实际应用较远。如何将问答题自动评分的方式方法应用到纸质对象的评阅中,还尚未有完整的解决方案,成为了自然语言处理在教育行业应用的重点和难点问题。在上述背景下,本文从教师的试卷批改工作入手,观察和调查教师的批改动作,根据改卷过程中的需求和计算机工作特点,确定了一个先检测、再识别、最后评分的三段式纸质试卷自动评分的算法框架。再以《系统建模与仿真》学科考试为研究对象,设计、制作和收集纸质试卷,组合运用目标检测算法、OCR文字识别API、问答题自动评分方法实现了一套针对纸质试卷的题目自动评分算法。针对本文应用场景,首先利用现有Yolo v4目标检测算法,自建试卷数据集,改进了目标检测的预处理和视频帧检测方式,实现了对试卷姓名栏、题目内容的目标检测;随后根据目标检测结果,搭建腾讯云OCR API实现了对检测结果的手写体识别;然后将含有维基百科、国内新闻、学科专业文本混合语料库,使用Word2Vec训练词向量模型,将词向量、句向量作为文本的特征进行相似度计算,并制定了问答题评分规则;最后,使用正则表达式、多线程等方法将Yolo v4、OCR、语义相似度评分算法三者连接。评测实验表明:改进图片数据增强方法的Yolo v4网络得到了68.77%的mAP50成绩和49.48%的mAP75成绩,使用“竖直平移”视频检测方案将试卷内容检测精度提高了21.25%,搭建的Word2Vec问答题相似度评分算法与专家评分均方误差在0.81以下,误差在10%以内。在测试中满足日常使用要求。本文成功实现了纸质试卷的问答题自动批改算法,研究成果对纸质对象的智能阅卷提供了理论依据和方法参考。提出的原型算法的实现证明了利用上述三种算法实现针对纸质试卷的问答题自动评分解决方案在理论和技术上是可行的,对减少教师工作量、提高教学质量有重要应用价值,对未来相关研究具有一定参考价值。

任凤丽^[7]（2021）在《基于深度学习的汉字识别方法研究》文中认为近年来,自然场景中的文本检测和识别技术已经渗透到工作生活中的方方面面,在拍照翻译、无人驾驶、快递单无人签收、票据识别等领域有着重要的应用。从早期的扫描文档识别到自然场景图片中的文字识别,OCR的应用范围越来越广泛,对应的场景文字识别问题亟需解决,得到了学术界的热切关注。目前,学术界的OCR可以支持多种语言,有一定的通用性,但是针对汉字,尤其是形近汉字的识别准确率并不理想。OCR中最关键的两个步骤是文本检测和文本识别。为了提高自然场景下汉字文本的识别效果,本文分别从文本检测和文本识别两个方面进行研究。一方面,针对文本检测算法,本文在研究对比了目前流行的几种文本检测算法后,选择了高效并且准确的EAST算法,作为文本检测阶段的基础算法,并且针对其长文本上识别效果不足的缺陷,从以下三个方面做出改进:（1）在特征提取阶段改变卷积神经网络的网络结构,提高检测精度。（2）在特征融合阶段之后加入Bi LSTM网络通过获取相邻像素点的位置信息来扩大网络的感受野。（3）改进输出顶点坐标的计算方式,由根据全部像素点距离平均加权改为根据头尾像素点距离平均加权,使得算法对文本框边界范围的检测更精准。本文通过国际权威比赛ICDAR提供的数据集进行训练和测试的对比实验,最终证明了经过改进后的EAST算法在文本检测的精确率和召回率均有提升。另一方面,本文从形近字的结构差异和上下文的语义信息两方面出发,在传统的CNN+RNN+CTC算法模型基础上提出了SimilarCRNN算法。该算法的研究思路如下:首先根据汉字的相似度算法构建形近字字库,针对形近汉字结构特征差异进行增强训练,从汉字结构方面提高形近汉字的识别准确率。之后在得到初步结果后增加“语义检测器”,对初步识别结果通过中文分词处理后依次进行错误检测,候选召回以及纠错排序三个阶段,对句子困惑度较大的错误识别结果进行语义纠正,在语义层面进一步提高形近汉字的识别准确率。一个完整的OCR模型,对检测识别过程中的精度和速度都有要求,同时要支持多端部署才能进一步扩大应用范围,实现研究落地。本文选择的基础文本检测算法EAST和文本识别算法CRNN在部署上相对来说配置方便,算法模型大小合适,精度也有了进一步的提升,可以作为一个通用的模型应用到各个领域,有广阔的应用场景。

叶子卿^[8]（2020）在《基于Tesseract-OCR的古代汉语文字识别方法的设计与实现》文中研究表明目前市场上针对现代汉语的文字识别技术已趋于成熟,然而,由于古代文献存在背景噪声的干扰、不同书写风格等客观原因,让古代汉语文字的识别变得较为复杂,所以本文针对中国古代汉语文字识别方法进行研究和设计实现。首先,通过对国内外相关技术的研究现状进行分析,本文对文字图像预处理方法和深度神经网络进行了研究,建立模型识别和算法验证测试。图像预处理方面,在图像预处理部分:先利用MATLAB工具,根据迭代法原理设计程序,完成图像二值化的仿真实验;其次利用线性灰度拉伸图像增强算法和二次函数图像增强算法和倾斜校正算法,通过四对透视变换前后对应点的坐标算出畸变参数从而求得变换前后关系,达到还原图形,实现透视变换。深度神经网络技术方面:首先对Tesseract-OCR开源引擎基本原理进行介绍;其次对LSTM神经网络识别算法进行研究,包括基于CNN的图像特征提取和基于LSTM的语义信息提取;最后,对模型结构及测试结果进行总结。最后,本文基于Tesseract-OCR进行了古代汉语文字识别原型的设计,包括系统架构、系统功能的设计和系统原型实现与功能测试,测试结果表明基于Tesseract-OCR的古代汉语文字识别方法的设计可以满足识别场景中的实际需求,该系统原型具有较高的市场价值。

张婷婷^[9]（2020）在《基于Tesseract＿OCR文字识别系统的研究》文中研究指明随着科学技术的发展,文字识别成为了日常生活中使用最为频繁的技术,特别是在图书馆、报社等地方。为节省成本,大量的图书、报纸和杂志等文本文档要以电子文档的形式进行存储。借助于不断更新换代的电子设备产品和技术,在对图书馆中的图书、期刊,报社的报纸、杂志或以图片形式保存的文字等进行OCR（Optical Character Recognition,光学字符识别）成为了实现智能输入的重要环节,不仅提高了行事效率又节省了成本开支。利用OCR技术进行文字信息识别时,只需要将文字载体制作成图片形式进行保存,进而输入到文字识别系统里即可。随着信息时代的发展,各国语言字体精确、快速地被成功识别成为了计算机科学领域的重要课题之一。因为要用到OCR技术对文字进行识别操作,所以原始文字图片的获取是文字可以被精确识别的一个重要因素。最为理想的图像采集设备是扫描仪,它不仅能保证图像没有任何背景并且还可以确保图像正面成像。但是扫描仪却不是生活中常具备的,多数情况下是使用手机摄像头进行文字图像的拍摄,虽然方便,但是这样拍摄出来的图像质量比较低,会出现一些不可预测的问题,比如不均匀的光线造成的失真,相机对焦不准确造成的图像模糊等。为了解决这些问题,论文首先对图像做了一系列的预处理工作,如图像二值化、锐化增强处理、去噪、矫正等。图像预处理过程是确保文字被正确识别的一个重要因素,同时也是训练自定义字符库时,常见文字被覆盖全面的重要保证。然后是Tesseract引擎源码的研究和使用,通过对源码的研究,更深层次研究文字识别的原理和流程。针对如何训练自定义字符库及训练过程的优化进行研究,并结合自定义的训练库实现文字识别系统。最后基于对图像处理的研究、C++11的应用以及tesseract引擎的研究对文字识别的整个过程进行封装,并使用MFC应用程序框架在VS2015环境下开发一款可视化界面工具,实现文字识别操作的整个流程。同时,对这个可视化工具进行了严格的黑盒、性能等测试工作,验证工具的健壮性和稳定性。

王宇^[10]（2020）在《基于深度学习的自然场景文字检测与识别研究》文中研究说明自然场景的文本检测是指对图像中单词或文本行的边界框进行定位的一项技术。近年来随着社会对于自然场景下文字检测的需求不断增长,场景文字检测与识别技术被广泛应用于各行各业。不过自然场景下的文字检测与识别往往有复杂的背景干扰,自然场景中的文字字体、颜色、排版和尺寸具有多样性,传统的方法很难实现文字与背景的有效分割,并且场景文字由于其多样性及与背景的近似性,使用单一的传统方法很容易导致漏检。如何有效检测到复杂背景下的文字并且识别不规则文字仍然是一项极具挑战性的任务。本文基于深度学习技术,针对场景文字检测与识别出现的问题提出解决方案。本文的主要工作如下:（1）提出一种基于自动生成导向包围盒模块的场景文字检测方法。该方法利用单阶段文字检测方法自动生成导向包围盒,作为第二阶段的文字检测的输入,进一步修正文字包围盒的边界,并去除错误的文字包围盒。自动生成的包围盒能更符合文字的形状,并省去预定义包围盒的参数调整。（2）提出一种基于有监督文字矫正网络的场景文字识别方法。该方法着重点在于对图片文字的矫正,能使竖直文字和不规则文字矫正为正常的水平文字。对于竖直的图片,本文设计了竖直文字矫正模块,用于将竖直文字矫正为水平文字。（3）对于矫正后的竖直图片以及其它图片,本文采用一种新颖的有监督的空间变换网络来对不规则文字进行矫正。矫正后的图片则输入到基于卷积循环神经网络的编码器中进行特征提取,最后将编码后的特征经由基于注意力机制的序列到序列模型的解码器转为最终输出。本文提出的基于自动生成导向包围盒模块的场景文字检测方法在常规自然场景文字检测中能够提高检测的精度,文字矫正网络能有效将竖直文字和不规则文字矫正为正常的水平文字,并提高了识别结果的识别率。因此,本文的研究对于提高自然场景文字检测和识别的效率,更好的服务于自然场景下文字检测需求具有重要的作用。

二、图、文、表的快速输入——OCR文字识别技术(一)（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、图、文、表的快速输入——OCR文字识别技术(一)（论文提纲范文）

（1）面向金融业务的表单票据通用识别系统研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景和意义

1.1.1 深度学习OCR在金融业务中应用的研究背景和意义

1.1.2 表格和印章识别的研究背景和意义

1.2 国内外研究现状

1.2.1 基于深度学习的文字检测模型现状

1.2.2 基于深度学习的文字识别模型现状

1.2.3 基于深度学习的表格识别模型现状

1.3 论文的主要研究工作

1.4 论文的组织结构

第二章相关理论及关键技术

2.1 基于语义分割的文本检测

2.2 文本识别相关技术

2.2.1 基于CRNN+CTC的文字识别模型

2.2.2 基于Attention机制的序列文字识别模型

2.3 表格识别相关模型

2.4 本章小结

第三章扭曲文档矫正

3.1 扭曲文档矫正模型

3.1.1 图像矫正网络

3.1.2 scSE模块

3.2 扭曲文档样本生成方法

3.2.1 扰动网格生成

3.2.2 扰动图像生成

3.2.3 数据增强

3.3 矫正结果展示

3.4 本章小结

第四章印章定位与识别

4.1 印章定位与去除

4.1.1 印章定位

4.1.2 印章去除

4.1.3 实验结果

4.2 弯曲文本检测模型

4.2.1 基础网络结构

4.2.2 可微分二值化模块

4.2.3 可变形卷积模块

4.2.4 空洞卷积模块DBlock

4.2.5 金字塔池化模块PPM

4.2.6 反卷积模块DCBlock

4.3 弯曲文本识别模型

4.3.1 STN矫正网络

4.3.2 文字识别网络

4.3.3 识别结果矫正模型

4.4 实验与分析

4.4.1 文字检测结果

4.4.2 文字识别结果

4.4.3 分析与改进

4.5 本章小结

第五章表格定位与识别

5.1 表格定位

5.1.1 表格定位网络

5.1.2 Attention模块

5.1.3 后处理

5.1.4 实验与分析

5.2 表格线提取

5.2.1 表格线提取网络

5.2.2 分割结果几何分析

5.2.3 文字检测结果

5.2.4 还原表格结构

5.2.5 匹配文字内容

5.2.6 实验与分析

5.3 本章小结

第六章表单票据通用识别系统实现

6.1 表单票据通用识别系统总体概述

6.2 系统运行效果

6.3 本章小结

第七章总结与展望

参考文献

致谢

攻读硕士学位期间发表的学术论文目录

（2）基于深度学习的化验单内容提取技术研究（论文提纲范文）

致谢

摘要

ABSTRACT

1 引言

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 化验单内容提取技术研究现状

1.2.2 文字检测技术研究现状

1.2.3 文字识别技术研究现状

1.3 主要研究内容及技术路线

1.3.1 主要研究内容

1.3.2 技术路线

2 化验单图像预处理算法研究及优化

2.1 基于融合算子的化验单图像边缘检测

2.1.1 Canny算子

2.1.2 sobel算子

2.1.3 改进的融合算子图像边缘检测算法

2.2 化验单图像二值化算法的优化

2.2.1 基于自适应阈值的OTSU算法

2.2.2 基于局部阈值的Bernsen算法

2.2.3 改进的二维OTSU二值化算法

2.3 本章小结

3 基于深度学习的化验单文本检测算法研究及优化

3.1 深度学习神经网络模型研究

3.1.1 神经网络组成

3.1.2 神经网络各层工作原理

3.2 基于CNN架构的特征提取网络模型

3.2.1 VGGNet网络

3.2.2 Inception网络

3.2.3 ResNet网络

3.3 基于深度学习的EAST文本检测算法研究

3.3.1 算法网络结构

3.3.2 算法损失函数的建立

3.4 改进的多特征融合EAST文本检测算法研究

3.4.1 基于多特征融合的特征提取网络模型建立

3.4.2 改进的融合损失函数

3.5 本章小结

4 基于深度学习的化验单文本识别算法研究及优化

4.1 基于Tesseract-OCR的单字识别模型研究

4.1.1 Tesseract-OCR单字识别模型

4.1.2 Tesseract-OCR模型参数调优

4.2 Tesseract-OCR单字识别模型算法的优化

4.2.1 化验单版面分析

4.2.2 化验单内容预识别及模型训练

4.3 基于端到端的CRNN序列识别算法研究

4.3.1 CRNN算法网络结构

4.3.2 CTC blank机制原理推导

4.4 改进的CRNN序列识别模型算法

4.4.1 ResNet101-IBN(b)残差特征网络的建立

4.4.2 基于ResNet101-IBN(b)的多尺度CRNN网络模型

4.5 本章小结

5 化验单内容提取系统设计与实验

5.1 PyQt程序库

5.2 化验单内容提取系统架构

5.3 化验单内容提取系统软件实现

5.4 实验结果及分析

5.4.1 实验环境

5.4.2 实验数据集

5.4.3 化验单边缘检测实验及分析

5.4.4 化验单二值化算法实验及分析

5.4.5 化验单文本检测算法实验及分析

5.4.6 化验单文字识别算法实验及分析

5.5 本章小结

6 结论

6.1 主要研究成果

6.2 进一步工作展望

参考文献

作者简历

学位论文数据集

（3）基于卷积神经网络的城市井盖检测系统设计与实现（论文提纲范文）

摘要

abstract

第1章绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 论文主要研究工作

1.4 论文组织结构安排

第2章相关工作原理分析

2.1 图像目标检测相关工作

2.1.1 传统图像目标检测方法

2.1.2 基于深度学习的目标检测方法

2.2 文字识别相关工作

2.2.1 基于常规字符识别方法

2.2.2 基于深度学习下的字符识别方法

2.3 本章小结

第3章井盖图像数据获取及小样本的图像增强

3.1 井盖数据集的获取

3.1.1 基于网络摄像头获取的井盖图像数据集

3.1.2 基于网络爬虫获取井盖图像数据集

3.2 面向小样本的图像增强

3.2.1 基于空间域的图像增强方法

3.2.2 基于频率域的图像增强方法

3.2.3 基于彩色图像增强方法

3.3 目标井盖图像的标注

3.4 本章小结

第4章引入通道注意力机制的图像实例分割模型的搭建

4.1 引入通道注意力机制的实例分割模型的搭建

4.1.1 通道注意力机制

4.1.2 引入通道注意力机制的图像实例分割模型搭建

4.1.3 人工多数计票原则处理结果框

4.2 模型训练与结果

4.2.1 模型搭建

4.2.2 模型训练

4.2.3 模型训练结果

4.3 模型效果验证与分析

4.3.1 城市井盖检测识别评估指标

4.3.2 实验测试与分析

4.4 本章小结

第5章井盖图像检测系统设计与实现

5.1 系统需求分析

5.2 系统设计与介绍

5.2.1 系统设计原理介绍

5.2.2 系统功能设计与介绍

5.3 实验结果及分析

5.3.1 实验环境

5.3.2 实验基础设置

5.3.3 测试与分析

5.4 本章小结

第6章总结与展望

6.1 本文工作总结

6.2 未来工作展望

参考文献

附录:攻读学位期间发表的论文、专利、软件着作权以及竞赛:

致谢

（4）基于深度学习的藏文古籍木刻本文字识别研究（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 研究背景及意义

1.2 研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 传统藏文OCR技术

1.3.1 藏文字符字符归一化

1.3.2 藏文字符预分类

1.3.3 藏文文本切分

1.4 基于深度学习OCR技术

1.4.1 文字检测

1.4.2 文字识别

1.5 主要研究内容

1.6 创新点

1.7 本文组织结构

第2章藏文古籍木刻本数据集构建与生成

2.1 藏文文字与版式特点

2.1.1 藏文古籍文字特点

2.1.2 梵音藏文转写体特点

2.1.3 藏文古籍文献版式特点

2.2 字符集创建

2.3 藏文古籍木刻本图像标注方法

2.3.1 标注规范

2.3.2 文本位置编号

2.3.3 文本内容标注

2.4 稀缺训练集扩充方法

2.5 小结

第3章藏文古籍木刻本图像预处理

3.1 低质量古籍图像二值化方法

3.2 藏文古籍木刻本复杂背景去噪方法

3.2.1 空间滤波去噪

3.2.2 非局部去噪

3.3 藏文古籍木刻本倾斜校正方法

3.3.1 倾斜角检测

3.3.2 Radon变换

3.4 小结

第4章藏文古籍木刻本复杂版式文本检测

4.1 文本检测方法

4.2 基于CTPN的藏文古籍文本检测

4.2.1 文本区域构建

4.2.2 竖向文本行检测

4.3 实验

4.3.1 实验数据

4.3.2 实验系统配置

4.3.3 实验结果

4.4 小结

第5章基于深度学习的藏文古籍木刻本文字识别

5.1 藏文古籍木刻本超长行识别

5.1.1 水平投影

5.1.2 垂直投影

5.1.3 超长行切分

5.2 藏文古籍木刻本串识别模型

5.2.1 古籍图像特征提取方法

5.2.2 古籍序列图像前后关系学习方法

5.2.3 序列合并

5.2.4 模型训练

5.3 实验

5.3.1 实验数据

5.3.2 评测指标

5.3.3 实验结果与分析

第6章藏文古籍木刻本文字识别后处理

6.1 藏文相似字符分类

6.2 字符相似度计算方法

6.3 识别错误检测方法

6.4 错误纠正方法

6.4.1 基于隐马尔科夫模型的识别错误纠正

6.4.2 语言模型的藏文识别错误纠正

6.5 原型系统架构

6.6 小结

第7章总结与展望

7.1 总结

7.2 展望

参考文献

攻读博士学位期间发表的论文及科研成果

1、发表/投稿论文

2、发明专利

3、软件着作权

4、主持和参与科研项目

5、获奖

致谢

（5）基于深度学习的文本检测识别技术的研究及其应用（论文提纲范文）

摘要

abstract

第一章绪论

1.1 背景与意义

1.2 国内外研究现状

1.3 本文主要贡献与创新

1.4 本论文的结构与安排

第二章文字识别算法和其它重要算法基础

2.1 文字识别

2.2 基于分治思想的文字识别算法

2.2.1 文本检测

2.2.2 文本识别

2.3 基于端到端的文字识别算法

2.4 其他重要基础

2.4.1 评价指标

2.4.2 目标检测算法

2.4.3 分水岭算法

2.4.4 最近邻算法

2.5 本章小结

第三章文本图像候选区域的定位与旋转矫正

3.1 基于传统图像特点的方法

3.2 基于深度学习的方法

3.3 基于综合信息的方法

3.4 基于投影变换旋转图像

3.5 基于矫正模型矫正图像

3.6 本章小结

第四章模拟数据的研究

4.1 模拟数据

4.2 图像的纹理背景

4.3 文本内容的构造规则

4.4 文本字体的类型与大小

4.5 文本图像的投影变换

4.6 图像的明暗与模糊

4.7 本章小结

第五章快递单关键字段智能提取系统

5.1 快递单关键字段的智能提取系统设计

5.1.1 快递单关键字段的智能提取系统需求分析

5.1.2 快递单关键字段的智能提取系统模块设计

5.1.3 快递单关键字段的智能提取系统整体架构设计

5.2 快递单关键字段的智能提取系统的实现

5.2.1 数据预处理模块

5.2.2 一套快速标注数据的流程化方案

5.2.3 图像的旋转矫正模型

5.2.4 场景文本合成数据生成模型

5.2.5 文本检测

5.2.6 文本识别

5.2.7 关键字段文本信息提取模型

5.3 实验结果与分析

5.4 本章小节

第六章全文总结与展望

6.1 全文总结

6.2 全文展望

致谢

参考文献

攻读硕士学位期间取得的成果

（6）基于Yolo V4+Word2Vec的试卷问答题评分算法研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究背景

1.2 研究意义

1.3 国内外研究现状

1.3.1 国外研究现状

1.3.2 国内研究现状

1.3.3 评述及问题的提出

1.4 研究内容、方法和技术路线

1.4.1 研究内容

1.4.2 研究方法

1.4.3 技术路线

1.4.4 本文的创新点

1.5 论文的组织结构

1.6 开发和实验环境

1.7 本章小结

第二章数据集设计与制作

2.1 试卷数据集的设计与制作

2.1.1 试卷设计

2.1.2 试卷数据收集

2.1.3 图像信息标记

2.2 文本数据集的收集与制作

2.2.1 文本数据集收集

2.2.2 中文停止词收集

2.2.3 文本数据集制作

2.3 本章小结

第三章基于Yolo v4的试卷多目标检测算法

3.1 卷积神经网络概述

3.1.1 BP神经网络

3.1.2 卷积神经网络

3.2 目标检测概述

3.2.1 目标检测

3.2.2 相关评价指标

3.3 基于Yolo v4的多目标检测算法

3.3.1 Yolo v4网络结构

3.3.2 多尺度预测

3.3.3 Loss计算

3.4 基于Yolo v4的试卷多目标检测算法

3.4.1 Mosaic数据增强

3.4.2 多数据增强方法融合的预处理方式

3.4.3 视频流检测方式改进

3.5 网络训练和结果分析

3.5.1 对比实验

3.5.2 性能分析

3.6 视频检测过程对比和分析

3.7 基于腾讯云的文字识别

3.8 本章小结

第四章基于Word2Vec的问答题自动评分算法

4.1 自然语言处理概述

4.1.1 Jieba中文分词工具

4.1.2 Word2Vec与CBOW模型

4.2 问答题自动评分概述

4.3 语料库预处理

4.3.1 Jieba分词

4.3.2 关键词提取

4.4 基于词向量的相似度评分算法搭建

4.4.1 基于Word2Vec的词向量模型训练

4.4.2 基于词向量相似度的评分方法

4.5 评分方法对比

4.6 本章小结

第五章纸质试卷问答题自动评分算法实现

5.1 算法衔接

5.2 主线程内容

5.2.1 视频流采集与清晰度检测

5.2.2 截图与临时文件保存

5.3 分线程内容

5.3.1 正则表达式过滤

5.3.2 文本相似度预处理

5.3.3 图片绘制和存档

5.4 实验测试

5.5 本章小结

第六章结论和展望

6.1 结论

6.2 展望

致谢

参考文献

附录A 攻读硕士研究生期间的科研成果

附录B 部分代码展示

（7）基于深度学习的汉字识别方法研究（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 课题研究背景与意义

1.2 国内外研究现状

1.2.1 文本检测技术

1.2.2 文本识别技术

1.3 论文的主要工作以及创新点

1.3.1 论文的主要工作

1.3.2 论文的创新点

1.4 论文的组织结构

第2章深度学习理论与相关技术概述

2.1 深度学习与人工智能

2.1.1 相关理论知识

2.1.2 深度学习框架介绍

2.2 神经网络简介

2.2.1 卷积神经网络

2.2.2 循环神经网络

2.2.3 编码-解码模型与注意力机制

2.3 本章小结

第3章自然场景下文本检测和识别算法的整体设计

3.1 难点分析

3.2 本文的技术路线

3.2.1 自然场景下的文本检测方法

3.2.2 自然场景下的文字识别方法探索

3.2.3 整体的网络架构

3.3 本章小结

第4章基于改进EAST算法的场景文本检测方法

4.1 EAST算法原理及存在的问题

4.1.1 EAST算法原理

4.1.2 EAST算法存在的问题

4.2 基于改进EAST算法的场景文本检测方法

4.2.1 特征提取阶段

4.2.2 特征融合阶段

4.2.3 特征序列融合阶段

4.2.4 检测结果输出阶段

4.3 本章小结

第5章基于改进CRNN算法的汉字识别研究

5.1 汉字识别面临的挑战

5.2 主流文字识别方法简介

5.2.1 CRNN算法

5.2.2 Attention-OCR算法简介

5.2.3 对比分析

5.3 本文设计的场景汉字识别方法

5.3.1 SimCRNN网络架构设计

5.3.2 形近汉字字库的构建

5.3.3 特征提取识别

5.3.4 语义检测器

5.4 本章小结

第6章实验结果与分析

6.1 实验环境与数据集

6.2 评价指标

6.2.1 文本检测实验评价指标

6.2.2 文本识别实验评价指标

6.3 结果与分析

6.3.1 文本检测结果

6.3.2 文本识别结果

6.3.3 文本检测与文本识别完整框架识别

6.4 本章小结

第7章总结与展望

7.1 工作总结

7.2 不足与展望

参考文献

攻读学位期间的研究成果

致谢

（8）基于Tesseract-OCR的古代汉语文字识别方法的设计与实现（论文提纲范文）

摘要

abstract

第一章绪论

1.1 课题背景及研究意义

1.2 图像预处理技术的国内外研究

1.2.1 国内研究

1.2.2 国外研究

1.3 Tesseract技术及深度神经网络的国内外研究

1.3.1 国内研究

1.3.2 国外研究

1.4 研究内容

第二章汉字识别相关技术介绍

2.1 图像预处理技术

2.2 Tesseract技术

2.3 深度神经网络技术

2.3.1 基于CNN的图像特征提取

2.3.2 基于LSTM的语义信息提取

2.4 本章小结

第三章古代汉语文字图像预处理和识别方法的设计

3.1 二值化

3.2 图像增强

3.2.1 线性灰度值拉伸图像增强

3.2.2 二次函数图像增强

3.3 倾斜校正

3.4 Tesseract-OCR基本原理

3.4.1 引擎架构介绍

3.4.2 文本字符识别

3.5 模型结构及测试结果

3.6 本章小结

第四章基于Tesseract-OCR的古代汉语文字识别系统实现

4.1 系统架构设计

4.2 系统功能设计

4.2.1 图像上传模块功能设计

4.2.2 图像预处理模块功能设计

4.2.3 文字识别模块功能设计

4.3 系统原型实现与功能测试

4.3.1 系统原型实现

4.3.2 系统功能测试

4.4 本章小结

第五章总结与展望

5.1 总结

5.2 展望

参考文献

附录1 攻读硕士学位期间申请的专利

致谢

（9）基于Tesseract＿OCR文字识别系统的研究（论文提纲范文）

摘要

abstract

第一章绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 本文内容与组织结构

1.3.1 本文内容

1.3.2 本文组织结构

第二章图像预处理研究

2.1 引言

2.2 OpenCV库

2.3 图像灰度化与二值化

2.3.1 图像灰度化

2.3.2 图像二值化

2.4 图像去噪

2.4.1 均值滤波

2.4.2 统计排序滤波

2.4.3 高斯滤波

2.5 倾斜校正

2.5.1 投影法

2.5.2 K最近邻法

2.5.3 霍夫变换

2.6 图像增强

2.7 字符分割

2.7.1 垂直投影

2.7.2 区域分割

2.8 本章小结

第三章 Tesseract_OCR字符训练研究

3.1 引言

3.2 jTessBoxEditor

3.3 Tesseract

3.4 Tesseract-OCR字符训练

3.4.1 训练准备

3.4.2 训练流程

3.4.3 训练优化

3.5 本章小结

第四章 Tesseract_OCR字符识别研究

4.1 引言

4.2 Tesseract-OCR识别原理

4.2.1 布局分析

4.2.2 字符分割识别

4.3 Tesseract-OCR识别原理的另一种分析法

4.3.1 连通区域分析

4.3.2 文本行区域查找

4.3.3 基线拟合

4.3.4 识别得到文本

4.4 Tesseract-OCR识别优化

4.5 本章小结

第五章文字识别可视化工具开发

5.1 MFC

5.1.1 MFC功能

5.1.2 功能设计

5.1.3 主界面设计

5.2 具体设计细节

5.2.1 图像读入显示

5.2.2 图像预处理

5.2.3 字符识别

5.3 可视化工具测试

5.3.1 软件测试

5.3.2 系统界面测试

5.4 本章小结

第六章总结与展望

6.1 论文工作总结

6.2 问题与展望

参考文献

附录1 攻读硕士学位期间撰写的论文

致谢

（10）基于深度学习的自然场景文字检测与识别研究（论文提纲范文）

摘要

ABSTRACT

1 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 论文主要研究内容

1.4 论文结构安排

2 相关理论与方法

2.1 引言

2.2 场景文字检测方法

2.3 场景文字识别

2.4 卷积神经网络与循环神经网络

2.5 本章小结

3 基于自动生成导向包围盒模块的场景文字检测方法

3.1 引言

3.2 本文场景文字检测方法的网络模型

3.3 模型训练

3.4 模型优化

3.5 本章小结

4 基于有监督文字矫正网络的场景文字识别方法

4.1 引言

4.2 本文场景文字识别方法的网络模型

4.3 基于卷积循环神经网络的编码器

4.4 基于注意力机制的序列到序列模型的解码器

4.5 模型训练

4.6 本章小结

5 实验与分析

5.1 数据集

5.2 评价标准

5.3 实验与分析

5.4 讨论

5.5 本章小结

6 总结与展望

6.1 总结

6.2 研究展望

参考文献

作者简历

致谢

学位论文数据集

四、图、文、表的快速输入——OCR文字识别技术(一)（论文参考文献）

[1]面向金融业务的表单票据通用识别系统研究[D]. 任多. 北京邮电大学, 2021(01)
[2]基于深度学习的化验单内容提取技术研究[D]. 梁国贤. 北京交通大学, 2021(02)
[3]基于卷积神经网络的城市井盖检测系统设计与实现[D]. 江焜. 湖北大学, 2021(01)
[4]基于深度学习的藏文古籍木刻本文字识别研究[D]. 仁青东主. 西藏大学, 2021(11)
[5]基于深度学习的文本检测识别技术的研究及其应用[D]. 王鉴宇. 电子科技大学, 2021(01)
[6]基于Yolo V4+Word2Vec的试卷问答题评分算法研究[D]. 包迪. 昆明理工大学, 2021(01)
[7]基于深度学习的汉字识别方法研究[D]. 任凤丽. 东华大学, 2021(01)
[8]基于Tesseract-OCR的古代汉语文字识别方法的设计与实现[D]. 叶子卿. 南京邮电大学, 2020(02)
[9]基于Tesseract＿OCR文字识别系统的研究[D]. 张婷婷. 南京邮电大学, 2020(03)
[10]基于深度学习的自然场景文字检测与识别研究[D]. 王宇. 山东科技大学, 2020(04)

标签：机器学习论文; ocr论文; 文字识别论文; ocr文字识别软件论文; 深度学习算法论文;

图片、文字、表格的快速输入——OCR文字识别技术（一）

一、图、文、表的快速输入——OCR文字识别技术(一)（论文文献综述）

二、图、文、表的快速输入——OCR文字识别技术(一)（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、图、文、表的快速输入——OCR文字识别技术(一)（论文提纲范文）

（1）面向金融业务的表单票据通用识别系统研究（论文提纲范文）

（2）基于深度学习的化验单内容提取技术研究（论文提纲范文）

（3）基于卷积神经网络的城市井盖检测系统设计与实现（论文提纲范文）

（4）基于深度学习的藏文古籍木刻本文字识别研究（论文提纲范文）

（5）基于深度学习的文本检测识别技术的研究及其应用（论文提纲范文）

（6）基于Yolo V4+Word2Vec的试卷问答题评分算法研究（论文提纲范文）

（7）基于深度学习的汉字识别方法研究（论文提纲范文）

（8）基于Tesseract-OCR的古代汉语文字识别方法的设计与实现（论文提纲范文）

（9）基于Tesseract＿OCR文字识别系统的研究（论文提纲范文）

（10）基于深度学习的自然场景文字检测与识别研究（论文提纲范文）

四、图、文、表的快速输入——OCR文字识别技术(一)（论文参考文献）

猜你喜欢