一、基于信息抽取的匿名用户兴趣描述(论文文献综述)
吴杰[1](2021)在《以事件为中心的旅游知识图谱的构建与应用》文中认为随着近几年人工智能的发展,知识图谱逐渐成为了工业界和学术界研究的重要课题。知识图谱的概念最早提出是为了提升搜索引擎的性能,但是由于其对于知识的高度抽象性和结构化,应用空间从最早的搜索引擎扩展到了问答系统,推荐系统等领域。Wikidata[1],DBpedia[2]和YAGO[3]等全领域的知识图谱大多都是基于结构化数据进行构建的。随着自然语言处理技术日趋成熟,从非结构的文本数据中抽取信息自动化的构建知识图谱也成了工业界的重要图谱构建手段。金融、法律、医疗等领域的专家也开始利用自己的先验知识进行构建专业领域知识图谱的交叉学科研究。然而,传统的知识图谱都是以实体为中心的,描述世界中静态知识,作为描述现实世界的另一个元素——事件在传统知识图谱中没有得到系统建模。近几年来自然语言处理领域相关专家提出了事理图谱概念[4],相比传统知识图谱,事理图谱以事件为中心,着重描述事件之间的动态关系,用于探究事件发生的规律。在旅游领域,传统知识图谱同样的对于用户旅行过程中的静态知识进行建模,忽略了旅行过程中的事件以及时空关系,本文提出了以事件为中心的旅游知识图谱的概念,并且将该图谱应用到实际旅游场景中,解决游客的相关问题,主要创新点如下:(1)分析了既有传统旅游知识图谱的不足,并有针对性的提出了以事件为中心的旅游知识图谱,基于Simple Event Model[5]设计了以事件为中心旅游知识图谱schema,同时提出了自动化构建图谱的整体框架,并基于该图谱对游客的行为进行了分析;(2)基于以事件为中心的旅游知识图谱,对图卷积网络进行了改进,提出了 Event-centric Tourism Knowledge Graph Convolutional Network(ETKGCN)的景区推荐框架,在真实数据集上取得了优于传统推荐方法的效果;(3)基于以事件为中心的旅游知识图谱,设计了 seq2seq的旅游路线推荐框架,充分利用图谱中的时空信息,使用自然语言生成的方法进行旅游路线推荐,在真实数据集上取得了良好的效果。
瞿龙[2](2020)在《高中物理学科知识图谱的构建与应用研究》文中研究指明随着互联网的高速发展,大数据和人工智能技术对我们的生活和学习带来了许多的改变,教育行业也逐渐的由传统的方式转变为现代的智能化教育。知识图谱作为人工智能的分支,在教育行业也开始应用起来。知识图谱是一种结构化的语义知识库,具有强大的结构表达能力和本体语义描述能力,在知识表示、开放共享和精准检索方面具有很大的优势。本文在研究分析高中物理学科特点的基础上,提出了基于本体的构建高中物理知识图谱的构建过程,设计开发了在线智能学习系统,具体的研究如下:首先,本文通过对本体建模的研究,借用“七步法”的构建思想,通过分析高中物理知识结构,提出物理学科本体构建方法,以高中物理教学大纲为基础,对电子化教材进行标注,抽取知识实例,完成了高中物理学科本体的构建。然后,通过网络爬虫抽取外源数据,对网络数据进行实体识别、关系抽取和属性抽取,对构建的知识结构进行补全和优化,对知识图谱进行可视化的展示。最后,基于构建的高中物理学科知识图谱,设计开发出在线智能学习系统应用于物理教学中,该平台支持知识查询、结构图展示和习题推荐,有利于促进物理知识的学习。
高强[3](2020)在《基于深度轨迹学习的人群移动和社交知识发现研究》文中研究表明近年来,移动互联网的飞速发展和全球定位系统的广泛使用产生了大量基于位置的应用服务,使得人与人之间的信息交互变得更加频繁和多样化。这些应用为用户提供了前所未有的机会,可以让他们分享个人经验和有趣地点,与志趣相投的人交朋友,以及加入拼车服务等。例如,基于位置的应用程序(如微信,Twitter和微博)通常会收集用户留下的大量足迹(签到)、社交好友等数据,而这些数据可以进一步产生有价值的信息,例如个人轨迹和个人社会关系。尽管这些信息来自虚拟世界,即互联网,但这却是现实世界中人类活动的客观反映。当前,学习人群轨迹已引起研究人员和从业者的关注,并提出了各种基于轨迹学习的优异模型来捕获人类时空信息。但是,已有工作在轨迹学习过程中仍然面临一些关键挑战:首先,人员流动的多样性显示出了用户不同的移动方式、位置偏爱和时间偏好等方面的差异;其次,数据稀疏性(例如签到数据的稀疏性)导致潜在特征表征不充分,以及难以获得个人偏好;此外,轨迹的语义复杂性也需要在轨迹建模中得到解决。最近具有强大泛化能力和特征提取能力的深度学习技术在自然语言处理和图像处理等诸多领域都取得了巨大的成功。因此,它为我们提供了一种新的视角来解决轨迹学习中的局限性。例如,应用循环神经网络来捕获轨迹中的长期依赖性。综上所述,本论文旨在通过深度轨迹学习来发现人群移动性和社会关系知识。尤其是引入多种深度学习技术来理解人群轨迹模式。本论文将解决四个重要但具有挑战性的任务,即人群移动性识别,下一个兴趣点(POI)预测,出行推荐和社交圈推理。本论文主要研究内容如下:(1)对于人群移动性识别,定义了一种新颖的轨迹分类问题,该问题旨在将轨迹链接到生成轨迹的用户上,即轨迹-用户链接(TUL)。由于TUL是典型的轨迹分类问题,因此提出了基于循环神经网络的半监督学习模型(TULER),该模型利用时空数据来捕获用户移动性模式的隐含语义信息。并且,根据位置签到的频率遵循幂律分布的观察结果,TULER将轨迹中的位置签到嵌入到了低维空间表示中。随后,TULER利用签到嵌入和循环神经网络通过半监督方式实现轨迹信息捕捉与分类训练。最后,TULER在真实数据集上进行的实验表明,TULER比已有方法具有更好的准确度。(2)对于下一个兴趣点预测,提出了基于变分注意力机制的下一个兴趣点预测模型(VANext)以解决兴趣点预测中存在的局限性,包括近期移动的稀疏性、历史移动的稠密性以及数据的复杂性。VANext是一个用于推断用户下一个足迹并关注用户移动历史的隐变量模型。VANext中的变分编码捕获了近期移动的潜在特征,然后在对应的历史轨迹中搜索周期性模式。VANext使用了轨迹卷积网络来学习历史移动性,相对通常使用的循环网络,其可以显着提高学习效率。最后,VANext通过利用历史移动模式的周期性以及最近的签到偏好来预测下一个兴趣点。在真实数据集上进行的实验表明,提出的模型优于最新的人类移动性预测模型。(3)对于出行推荐,提出了一种新颖模型(Deep Trip)来解决编码器-解码器框架下的出行推荐问题,该模型联合使用对抗神经网络来训练代码空间以改善偏好路线的推荐。Deep Trip包括:一个出行编码器,利用循环神经网络将上下文路径嵌入到隐变量中;以及出行解码器,用于根据优化的隐变量重构此路径。同时,Deep Trip中定义了一个由生成器和判别器组成的对抗网络,该对抗网络可以生成给定查询的表示,并使用判别器来区分从出行编码器得到的出行表示和从对抗网络生成的查询表示。另外,Deep Trip可以规范隐变量空间并泛化用户的复杂签到偏好。与最新的基准相比,Deep Trip的理论解释和在两个真实数据集的广泛实验评估表明了Deep Trip的有效性和可靠性。(4)对于社交圈推理,给出了基于轨迹的社交圈推理(TSCI)问题的基本定义。TSCI旨在基于运动轨迹推断用户社交圈(主要是社交关系)而无需任何显式社交网络信息。本文将其表述为新颖的多标签分类问题,然后提出基于循环神经网络的框架(Deep TSCI),以使用人群移动模式推断相应的社交圈。本文给出了具有三种不同内核的Deep TSCI来学习基于轨迹的潜在表示形式,它们分别是:(1)双向长期短期记忆(LSTM);(2)自动编码器;(3)变分自动编码器。最后,在真实数据集上进行的实验表明,提出的方法与基线相比性能良好,且在macro-R、macro-F1和accuracy三个指标方面均取得了显着改善。
于思淼[4](2020)在《主题词匹配的收藏文档标题分类研究》文中研究说明在信息爆炸的背景下,信息泛滥、信息超载、信息浪费问题日益严重。对高价值信息进行规范化管理与自动分类,对于完善团队文档管理体系、构建个人知识体系具有重要意义。针对收藏文档标题短文本分类这一问题,提出一种无监督主题词抽取算法,并定义主题词表示,然后基于主题词表示对文档标题进行标注,进而解决自动分类问题。为消除分类目标的模糊性与不同用户的差异性,首先定义了主题词选取规范,对主题词选取范围以及主题词粒度进行合理限定;又提出一种基于自定义富标签的文档分类规范。此外,定义了共现项集、共现项关系类型概念,与候选主题词判别条件作为主题词抽取算法的基础研究条件。主题词抽取算法可分为4个步骤:文档集预处理、候选主题词选择、主题词集精简优化与主题词表示。在文档集预处理阶段,设计了一种多元短语提取算法,能够高效地提取二元短语及高元短语。随后设计了候选主题词选择算法,获取候选主题词集与主题词的共现项集。在主题词集精简优化阶段,先后采取精简等价特征项、消除完全构成词冗余构成项、消除双向构成关系、消除短语构成词策略,精简主题词集与共现项集,筛选出高质量的主题词,消除共现项集的冗余。在主题词表示阶段,将共现项集分解为4个集合作为主题词的集合特征,同时将主题词分为4种类型,区分了主题词的重要程度。最后基于主题词表示设计标题文本分类算法,分类算法为文档标注<主题词,构成词>二元标签,体现了文档主题的层次关系,可解释性较好。在实验阶段,由于短语、主题词、文档分类标签的人工标注结果,受数据集以及主观因素影响较大,无法保证标注结果合理性与准确性,未采用准确率等评价指标说明算法的优越性。实验对算法步骤的效果进行验证,并与传统算法进行定性对比分析,验证结果表明:在爬取的网络收藏夹标题短文本数据集上,主题词抽取算法在3493个特征项中抽取出253个Ⅰ类型主题词,数量适中,且主题词意义合理。分类算法为文档创建了标签索引,共获得4174对二元标签。对比分析结果表明,相比于传统算法,本文算法在易用性、可解释性、稳定性、性能等方面均有良好表现。该论文有图6幅,表14个,参考文献65篇。
李朝翻[5](2019)在《基于社交网络文本框架语义分析的药品不良事件提取》文中认为近年来,国内外药品不良事件的发生愈来愈成为一个严重的公共卫生问题。药品不良事件的提取既是有效利用海量社交网络文本医疗信息资源的现实需求,也是提高药品不良事件挖掘效率必须解决的关键问题。药品不良事件提取是通过抓取患者对药物的评论文本,进行框架语义分析,构建词表和不良事件模板,对提取事件结果进行总结及对照,得出相关结论。药品不良事件的提取能及时察觉出药品存在的安全性隐患,有效提高政府的监测效率,减少因无知、寡闻所造成药害事件的持续发生,此外能给予监管者、生产和研究者、流通商、药师、医生、护士、患者和消费者等群体一定的借鉴指导。本文首先对当下国内外药品不良事件提取相关的研究现状进行综述;接着对框架语义学的相关理论进行概述,引出基于框架语义分析的药品不良事件文本分析流程,同时着手构建药品不良事件语义分类词表,为后续的药品不良事件模板构建做好铺垫;其次根据药品不良事件提取流程图衍化出的提取要素构建药品不良事件的模板,并在槽填充下进行了细化的步骤解读,为后续的实验部分提供规范的数据支撑;抓取社交评论中患者对某一药品的评论文本进行实验,实验结果验证了提取方法的真实有效性;最后对研究工作进行总结概括,提出创新点和不足之处,同时简单阐述了对未来研究工作的见解。通过对药品不良事件的提取,能够为提高人类的健康水平做出一定贡献,具有较高的研究价值和意义。
阳广元[6](2017)在《国内基于本体的信息抽取研究现状与热点分析》文中进行了进一步梳理以国内2002年1月至2016年5月间发表的与基于本体的信息抽取有关的期刊文献为分析对象,运用内容分析法从领域本体的构建及基于本体的信息抽取方法、信息抽取模型、信息抽取算法、信息抽取系统、信息抽取的应用领域等6个方面对国内该领域的研究现状与热点进行分析,认为目前国内该研究领域具有研究内容从理论走向实践、研究主体多样性、尚未形成核心作者和核心团队等特点,指出本体构建的自动化及基于本体的信息抽取的评估机制、信息抽取的实践应用将成为未来的发展趋势。
黄丽丽[7](2016)在《社交媒体文本数据的知识发现模型与实证研究》文中研究表明目前,随着大数据(Big Data)概念的提出及大数据时代的到来,社交媒体以其数据传输速度快、应用范围广、更新频率快等特征,已经成为大数据时代数据仓库的重要组成部分,蕴含大量数据、形式复杂多样、价值深埋有待挖掘的社交媒体数据,为数据挖掘及知识发现奠定坚实的数据基础,吸引了众多的数学、计算机、图书情报领域的科研工作者的充分关注。对由用户生成的、数量众多的社交媒体数据进行采集、清洗和结构化,进而进行统计、信息分析与数据挖据,探寻领域的研究热点、研究前沿和研究趋势,发现某一领域的特殊个案,揭示事件的相关性等等,能够为科学研究与实践应用提供新信息、新线索、新知识,因而成为当前具有一定现实意义的工作。而且与文献数据、科研数据等结构化数据相比,社交媒体文本数据具有不规范特性,主要表现在:数据在社交媒体上以自由的、非结构化的文本数据的形式展现;文本中概念描述用词口语化、习惯用语程度高、存在大量字符缺失、单复数混用等现象;数据中实体语义关系通过语境来体现,并未给予直观的抽象文本;社交媒体作为表达个人感受的平台,文本数据中客观事件的描述夹杂着情感表达,使得事件陈述更加模糊;与此同时大量的知识隐含在事件中也未显现。这些社交媒体文本数据的不规范化特点为对社交媒体数据进行数据规范、概念提取、语义关系表达、事件探测和知识发现带来巨大困难。况且,目前对社交媒体数据进行数据挖掘与知识发现的技术和理念不足以圆满地完成对此类数据的处理,尚缺乏对其系统理论、方法和技术研究。DIKW(Data-Information-Knowledge-Wisdom)体系呈现了从数据到信息、再到知识的层层沉淀凝练最终到智慧的转化过程。因此基于DIKW体系从数据-信息-知识的转换过程可抽象出一个通用方法模型,为领域用户对社交媒体文本数据进行知识发现研究提供指导。此外,句子的句法结构和语义关系是文本内容分析中的关键问题,能否正确地识别并抽取出文本中实体关系是社交媒体文本数据中隐含知识发现得以实现的重要前提。而传统的实体关系抽取大多仅考虑了词法信息,而没有考虑语义信息对实体语义关系的影响,鲜有将实体的词序加入到实体语义关系抽取当中。因此,本研究依据句法分析理论并综合考虑实体的词序对句子语义的影响制定具有较高鉴别能力的抽取实体关系的推理规则,以此来实现文本中实体语义关系的抽取。此外,由于通过将社交媒体文本数据知识发现理论模型应用于具体的社交媒体数据分析中,并从中发现隐含的领域知识,能够验证提出的知识发现模型的可行性,同时也能够表明社交媒体文本数据知识发现模型的研究有助于实现大规模文本数据资源中隐含知识的发现。因此本文将在构建社交媒体文本数据知识发现模型后,将其应用于虚拟健康社区数据的知识发现研究。鉴于此,本文综述了国内外相关研究的成果,针对社交媒体文本数据不规范问题剖析社交媒体数据挖掘可能遇到的问题和困难,在语言学、信息组织、实体识别与关系抽取等理论的指导下,提出社交媒体文本数据挖掘与知识发现策略,从而指导社交媒体文本数据中的知识发现问题的分析与解决。此外,由于社交媒体数据具有数据量大、内容表述不规范、且知识复杂性等特点增大了对社交媒体文本数据抽取之后进行语义分析、语义描述的难度,使得领域用户难以从中发现领域新知识。鉴于目前没有针对社交媒体文本数据的知识发现并广泛认可的挖掘方法或知识发现模型,本研究以DIKW体系为理论指导进行社交媒体文本数据中领域知识发现过程的研究,在DIKW体系从数据到智慧转化的启示下,构建社交媒体文本数据知识发现模型,制定基于语法规则的数据抽取和语义标注的推理规则,以实现语义的自动分析,提高数据的语义标注和语义描述的效率,并由虚拟健康社区数据为例验证所构建模型的科学性和有效性。本文的主要内容包括:(1)提出社交媒体文本数据知识发现策略总结了社交媒体数据挖掘与知识发现的困难,针对社交媒体数据载体的文本化特征,和文本数据中概念描述的口语化、关系表达的自由化、文本中事件阐述的模糊化及知识蕴含的隐蔽化特点,在语言学、信息组织、本体映射、实体识别与关系抽取等理论的指导下,制定社交媒体资源命名实体识别策略、实体语义关系抽取策略和事件探测策略,在此基础上最终形成较为完整的社交媒体数据挖掘与知识发现策略,从而指导社交媒体文本数据中的知识发现问题的分析与解决。(2)构建社交媒体文本数据的知识发现模型在社交媒体知识发现策略的指导下,以DIKW为体系,构建了面向社交媒体文本数据的数据挖掘与知识发现概要模型,并分别细化了模型的数据层、自然语言处理层、语义分析层、关系抽取层和事件探测层,详述各个层的职能,形成详细模型。(3)基于社交媒体文本数据知识发现模型的子系统运行机制以提出的社交媒体文本数据知识发现概要模型和详细模型的基础,完成社交媒体文本数据知识发现子系统中各个模块的搭建,并详细阐述模型中各个模块的不同功能和彼此间的相互关联。从子系统的外部催生条件/需求拉动机制、社交媒体文本数据知识发现子系统内部的语义映射机制、基于规则的推理机制及事件探测反馈机制几方面对知识发现模型的运行机制展开讨论。子系统内部的每种机制在各自的模块内部由各模块组成要素相互作用实现各自功能,各个模块结合在一起组成社交媒体知识发现模型,各种运行机制协同工作,共同完成社交媒体知识发现任务。(4)社交媒体文本数据知识发现实证验证以美国虚拟健康社区MedHelp作为实证研究的数据来源,应用所构建的社交媒体文本数据知识发现子系统从社区中获取由用户生成的文本内容并从中挖掘出潜在的、可能的药物不良反应信息。利用数据库技术和Java编程技术获取虚拟健康社区中自由文本数据构建本地文本库;在实体语义关系提取与分析阶段,本研究编写7条推理规则,利用医学领域本体UMLS、CHV、和SIDER实现与虚拟健康社区自由文本数据中医学健康领域相关概念间的语义映射,最后实现知识发现。实证通过挖掘虚拟健康社区数据中潜在的药物不良反应,验证提出的理论模型的可操作性。数据挖掘发现的药物不良反应信息通过领域专家验证,最终提供给领域用户。本文的研究意义在于:(1)本研究将来自社交媒体的自由文本数据作为研究对象,有别于传统的对结构化数据的研究,也与对科研文献或机构知识库的研究不同,是对学科科研数据进行知识发现研究的补充。(2)结合DIKW理论构建社交媒体知识发现模型,为最终发现社交媒体中有价值的信息提供良好的数据分析环境。对于虚拟健康社区中药物不良反应的挖掘,是对我国药物不良反应监测具有参考价值,有助于药品安全及疾病防治发现,能够从数据方向出发为实际临床验证提供补充。(3)提出通过使用制定推理规则的方法对以自由文本形式呈现的虚拟健康社区数据进行数据抽取、语义分析、语义互联以及知识发现,有助于推进医学信息学和情报学界的数据整合与知识发现理论与方法的研究。
李娜[8](2016)在《基于垂直搜索引擎的农业信息推荐关键技术研究》文中认为互联网已经成为人们获取信息资源的重要渠道,面对浩如烟海的互联网信息,个性化的信息推荐是未来信息服务的发展方向。另一方面,各级政府和部门投入大量资源建立了涵盖农业科技、畜牧、水产、农垦、农机等领域的信息平台,由于农村地区信息基础建设的缺乏,广大农业生产经营者在信息分析、信息处理等方面能力的匮乏,导致这些对农业生产具有重要指导意义的信息却无法有针对性的传播到农业生产经营者手中。涉农人员仅依靠大众媒体、农业信息机构和口头传播的方式,很难获取到个性化的农业信息服务。该研究的目标是将散布在互联网上的大量农业相关信息进行采集、分析和处理,准确把握涉农用户的意愿和需求,主动将需求信息精准的传播到涉农用户手中,提高农业信息的在农业生产过程中的指导作用和社会经济效益。现有的推荐系统在农业领域的应用主要存在三个问题,一是农业领域信息专注度不够;二是涉农用户兴趣过拟合和冷启动问题;三是现有的信息推荐系统未根据农业的属性特色实现涉农用户个性化的分类和推荐问题。针对以上问题,本研究对农业信息推荐系统的数据源、用户兴趣模型、推荐算法三个重要部件的关键技术进行了深入的研究。主要包括:农业信息采集与分析、用户兴趣模型构建、推荐模型构建和推荐算法改进、软件自主决策机制等关键技术,为个性化农业信息推荐服务的实现提供技术支撑。论文的主要研究工作概括如下:1.通过对搜索引擎功能和搜索效果的比较研究,设计了基于Nutch的农业垂直搜索引擎,实现互联网农业信息的采集、过滤和分析,构建了农业信息推荐资源库。针对垂直搜索在农业领域的应用特点和面临的不足,采用字标注分词技术和参考农业专业术语语料库识别新词的方法改进了搜索引擎的分词模块,实验表明,该分词模块的分词效果与其他分词系统相比,对农业领域文本信息的分词准确度有所提高,结合对种子URL质量的控制,增强农业相关网页的抓取精度和深度。2.针对农业网络资源存在的空间属性表示不统一、显性表达缺失的问题,研究农业领域空间属性信息提取方法,提出了一种借助行政区划本体库对农业领域空间属性的辨别和抽取方法,设计了显性空间属性抽取算法和基于通用搜索引擎的隐性空间属性抽取算法,采用卡方检验的方法解决了隐性空间属性抽取方法中返回空间属性不唯一的问题。两种抽取算法可有效标注网页信息中的空间属性信息,实现用户和项目地域特征的提取,为涉农用户兴趣模型中地域标签的建立和基于地域特征的个性化农业信息推荐模式的实现提供必要的信息。3.采用问卷调查的方法对涉农人员的农业信息需求情况和获取信息方式进行了研究,针对现有的农业信息服务方式无法实现个性化服务的现状,构建了全面反映涉农用户兴趣的模型ATBUIM。选定涉农用户的显式和隐式信息来源,研究了用户背景、浏览行为对用户兴趣度的估算方法和权重,构建了基于互信息和农业领域资源分类标签的贝叶斯网络涉农用户兴趣模型,将农业领域标签间的互信息作为节点条件概率,采用结构学习的方法实现模型的更新和优化。该模型将用户兴趣信息进行加权处理,体现不同类型信息的在模型构建中的比重,更加全面和准确的反映涉农用户的兴趣领域,为实现精准、有效的农业信息推荐算法奠定基础。4.分析和比较了三种推荐算法,针对传统推荐算法存在的冷启动和数据稀疏问题,提出了解决方法和策略,设计了高效的组合推荐算法模型。提出添加特征标签改进算法相似度的方法,解决了传统基于内容推荐算法中新用户无法推荐的问题。针对协同过滤算法中存在的数据稀疏性问题,提出了结合涉农用户的评分、特征因素与农业项目的评分、特征因素的协同过滤算法,算法中目标用户和目标项目的预测评分均为最近邻居综合了评分相似度和特征相似度的结果,加权结合两项预测评分获得最终推荐结果,经实验表明,改进的协同过滤算法在相同数据稀疏度的环境下平均绝对值偏差更小,推荐精度表现更好。针对单推荐算法存在的不足,基于泛函网络提出了一种组合推荐算法,构建了组合推荐模型。实验表明,组合推荐算法计算用户对项目的预测评分更接近用户对项目的实际评分。5.针对信息推荐服务模式在新的网络环境下能够主动调整自身结构、状态和行为的服务需求,提出了一种面向农业领域的软件自主决策机制。基于本体将农业网络信息中的领域知识、消息和服务信息等信息构建模型,设计了面向农业领域知识的思维决策模型AKDM,将环境信息转换成信念、愿望和意图集合,并利用信念-愿望-意图之间的决策推理关系指导Agent完成农业信息推荐行为。分析和实验表明,该机制在农业领域知识和规则的约束下,实现了自主思维决策过程,完成了农业信息的推荐。综上所述,论文对互联网农业信息的有效搜索、涉农用户兴趣模型构建、农业信息精准推荐算法和软件自主决策机制做出的研究,可以为农业领域信息个性化推荐服务的实现提供技术支撑。
何俊杰[9](2016)在《教育新闻平台的优化设计与实现》文中指出伴随着移动互联网开始引领整个世界获取信息方式的浪潮,以微博和微信为代表的移动互联网软件开始颠覆人们传统的新闻阅读模式,如电视、报纸、广播等传统媒体。移动互联网的诸多优点(高便携性、便捷性、定向性等)和快速发展使得移动端的新闻阅读成为大多数人的习惯,但是人们想要快速、准确地从互联网获取感兴趣的信息的需求与互联网的海量新闻产生了矛盾。人们面临严重的信息过载问题,特别是对教育新闻感兴趣的用户,如教育工作者、家长、学生等,碎片化的时间使得他们无法从大量的新闻报道中找到感兴趣的新闻,而现有的新闻平台很少会将教育新闻当作重点对象。本文针对木棉新闻平台进行优化设计并实现,以解决人们对移动客户端软件的特定领域的新闻阅读偏好但又面临的海量信息过载问题。首先,本文对教育新闻平台的网页采集、解析模块进行了优化设计。针对木棉教育新闻平台的新闻数据来源单一化的问题,增加了新闻研究中新的重要数据源——微信公众号文章,并采用基于Python语言的Scrapy框架实现微信公众号文章的采集、解析,以满足人们在教育领域中对移动客户端软件的新闻阅读需求。另一方面,为了给用户提供个性化的新闻阅读服务,本文采用基于Java语言的HttpClient客户端网络库对门户网站新闻的评论进行了高效、准确的抓取和解析,作为个性化推荐基础的用户行为数据。针对木棉教育新闻平台同时采用Java和Python语言作为采集、解析方案的编程语言兼容问题,本文采用预定义的JSON格式作为整个系统中模块间的通信方式,实现了编程语言无关的抓取、解析方案的融合,以提高系统灵活性和可扩展性。然后,针对海量新闻的过载问题,本文设计和实现了一个新闻推荐模块,集成了基于LDA主题模型的用户新闻协同过滤的混合推荐策略,该策略综合考虑了新闻的多主题特性、新闻的实体特性、用户协同的效应、新闻的时间效应,对用户和新闻分别进行建模:采用LDA构建主题特征、挖掘核心实体构建实体特征、并基于用户的主题兴趣进行相似用户挖掘,以理解用户真实的阅读兴趣和信息需求。通过提供教育新闻的推荐服务,从而改善教育新闻领域的用户面对新闻信息过载的困境和阅读体验。本文还基于新闻门户网站的用户行为(新闻评论)数据集对推荐方法进行了实验验证。优化后的教育新闻平台的部署、运行效果及性能说明了设计方案的合理性以及系统实现的完整性。
梁政[10](2014)在《面向在线社交网络舆情的信息传播分析关键技术研究》文中进行了进一步梳理随着Web2.0技术的诞生和迅速发展,互联网进入了在线社交网络的时代。由于信息发布、传播的开放性和自由性,在线社交网络中的信息传播活跃性达到前所未有的高度。研究在线社交网络的信息传播规律,不仅有助于加深对网络结构和用户群体行为的认识,也能有助于引导在线社会网络舆情,因而具有重要的理论价值和研究意义。在线社交网络具有主题多样性、动态演化性、数据规模海量性、高噪音性和非线性等特点,因此在分析方法和计算模型上都与传统社交网络具有很大差别。本文以舆情分析为应用背景,在分析研究现状的基础上,针对在线社交网络中的社会关系中的主题多样性和动态演化性、数据的高噪音性、数据规模的海量性和话题热度变化的非线性进行了研究。本文主要的研究工作和贡献如下:1.研究了面向微博的社会关系信息抽取问题,针对社会关系中的主题多样性和动态演化性,提出了一种主题和时间敏感的连接强度在线计算模型。在线社交网络中的信息传播更多构建于社会关系之上。一方面,用户之间的通信主要是以电子文本的形式进行的,而文本是与主题相关的,这意味着社交网络中的个体间连接具有主题多样性。另一方面,社交网络是一个动态的网络,个体间的连接强度和信息内容是随着时间而不断演化的。已有方法大多没有同时考虑上述两个特性,影响了用户传播行为预测模型的精度。针对已有方法的不足,本文将用户之间通信历史记录中的主题和时间两个因素结合起来,提出了一种主题和时间敏感的连接强度计算模型。实验结果证明,相对于已有模型,本文提出的连接强度在线计算模型不仅在用户传播行为预测的准确性方面有明显提升(提升幅度达33%左右),还能有效地发现微博用户中的“主题好友”和“个人好友”。2.研究了面向信息传播的微博用户兴趣信息抽取问题,针对微博文本中存在的高噪音性,提出了一种结合微博特征的微博用户兴趣发现方法。微博文本具有篇幅短、规范性差、新词泛滥等高噪音性,导致基于传统信息抽取技术的用户兴趣发现方法无法发挥到良好的效果。本文为通过微博文本发现微博用户兴趣,提出一种微博用户兴趣关键词抽取方法。用户兴趣关键词是指微博文本中最能反映用户兴趣的词语集合。该方法首先针对微博篇幅短的特点,将每名用户的所有微博文档合成一个长文档,接着利用微博文档中的转发数、标签和发布时间等特征设计了候选兴趣关键词的特征,再使用机器学习的分类算法,有效地抽取出用户兴趣关键词,实现了用户兴趣的发现。通过微博用户分类对本文提出的用户兴趣发现效果进行检验。实验结果证明,本文提出的用户兴趣发现方法准确率达到89.79%,在性能上比已有方法提升了约20%。在基于用户兴趣关键词的微博用户分类中,由于能有效排除微博中无意义的词汇,因而相对于传统方法,分类准确率能达到91.26%,性能提升了18.7%。3.研究了新型社交网络应用“微群”中信息传播机制,针对数据海量性和社会关系隐藏性,提出了一种结合连接强度和用户兴趣的用户传播行为动态预测模型。微群是微博客社交网站中的一种类似“QQ群”的新型社交网络应用,近年来发展迅速。这类应用将微博与电子公告板两者的特点结合起来,形成了新的传播机制。在微群中,连接强度和用户兴趣共同影响着微博用户信息交互行为。另外,由于微群的数量及其成员规模庞大并且社会关系隐藏在海量的回复关系,因此微群具有数据海量性和社交关系隐藏性的特点。针对微群以上特性,本文提出一种结合连接强度和用户兴趣的用户传播行为动态预测模型。该模型先基于用户平时发布的微博与给定话题的内容相似度,度量用户对目标话题的个人兴趣度,再利用用户之间的回复关系构建与话题相关的影响力网络,然后基于自重启随机游走的话题兴趣度排序方法预测用户传播行为。该模型在内容相似性度量中,基于LDA(Latent Dirichlet Allocation)模型的文本表示方法,有效克服了传统基于“词袋”的方法所带来的高维度弊端。此外,该方法利用相邻时间片文本数据具有相同语境的特点,实现动态更新话题内容,使预测模型能实时处理不断涌现文本流数据。实验结果证明:本文提出的动态预测模型在预测性能上优于已有的预测模型,性能提升幅度约35%左右。4.针对舆情话题热度变化的非线性,提出了一种基于改进型神经网络的话题热度预测模型。舆情话题是由突发事件引起的话题,其热度受到传统新闻媒体、话题内容本身和网络中的意见领袖、用户群体数量等多种因素的影响,具有非线性变化的特点。已有的预测模型大多基于传统统计模型,一般只适用于线性变化或周期性变化的话题。针对已有预测模型的不足,本文提出了一种基于改进型神经网络的话题热度预测模型。首先基于灰色关联度理论,发现意见领袖的影响力、回帖数和点击数均与话题热度存在很强的正相关性,进而利用神经网络对话题热度与上述因素之间的非线性关系进行建模和预测。此外,针对标准神经网络容易陷入局部最优解的不足,采用遗传算法优化神经网络模型,进一步提高了预测精度。实验结果表明,无论是相对于标准神经网络还是其它已有算法,本文提出的预测模型在话题热度预测方面都有明显的提升。综上所述,本文针对在线社交网络数据的特点,研究了面向在线社交网络舆情的信息传播分析技术,分别从微观层次和宏观层次分析了在线社交网络中信息传播规律,提出并实践了新的算法,对于在线社交网络中的信息传播建模和网络舆情有效引导具有重要的理论指导意义,同时对于市场营销和信息推荐等方面也具有重要的应用价值。
二、基于信息抽取的匿名用户兴趣描述(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于信息抽取的匿名用户兴趣描述(论文提纲范文)
(1)以事件为中心的旅游知识图谱的构建与应用(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.3 本文的工作内容与贡献 |
1.3.1 研究内容 |
1.3.2 主要贡献 |
1.3.3 论文组织结构 |
第二章 相关技术综述 |
2.1 知识图谱研究综述 |
2.1.1 知识图谱的构建 |
2.1.2 知识图谱的表示 |
2.1.3 知识图谱的应用 |
2.2 推荐算法 |
2.2.1 传统推荐算法 |
2.2.2 旅游领域的推荐算法 |
2.3 相关深度学习技术综述 |
2.3.1 图神经网络 |
2.3.2 seq2seq模型 |
2.4 本章小结 |
第三章 以事件为中心的旅游知识图谱的构建 |
3.1 背景分析与挑战 |
3.2 构建ETKG整体流程 |
3.3 ETKG架构设计 |
3.4 构建ETKG |
3.4.1 信息抽取 |
3.4.2 信息组织 |
3.4.3 图谱构建结果 |
3.5 基于ETKG的应用 |
3.5.1 游客行为分析 |
3.5.2 基于Rasa的任务型对话系统 |
3.6 本章小结 |
第四章 基于ETKG的景区推荐系统 |
4.1 背景分析与挑战 |
4.2 问题定义与框架概述 |
4.2.1 相关定义 |
4.2.2 基于ETKG的景区推荐系统整体框架 |
4.3 ETKGCN模型 |
4.3.1 设计思路 |
4.3.2 ETKGCN模型结构 |
4.3.3 训练方法 |
4.4 实验结果与分析 |
4.4.1 实验数据 |
4.4.2 对比算法 |
4.4.3 评价指标 |
4.4.4 参数配置 |
4.4.5 实验结果 |
4.5 本章小结 |
第五章 基于知识图谱的路线推荐系统 |
5.1 背景分析与挑战 |
5.2 基于知识图谱的seq2seq旅游路线推荐框架 |
5.3 CDR轨迹清洗算法 |
5.3.1 轨迹漂移效应 |
5.3.2 轨迹乒乓效应 |
5.3.3 轨迹停留点识别算法 |
5.4 实验设置与结果分析 |
5.4.1 实验设计 |
5.4.2 实验数据 |
5.4.3 评价指标 |
5.4.4 实验思路与结果分析 |
5.4.5 参数选择 |
5.5 本章小结 |
第六章 总结与展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
(2)高中物理学科知识图谱的构建与应用研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
第一节 研究背景和意义 |
一、研究背景 |
二、研究意义 |
第二节 国内外研究现状 |
一、知识图谱研究现状 |
二、在线智能学习系统研究现状 |
第三节 论文内容和结构安排 |
一、论文主要内容 |
二、论文结构 |
第四节 本章小结 |
第二章 相关理论和技术基础 |
第一节 知识图谱 |
一、知识图谱概述 |
二、学科知识图谱 |
三、知识图谱构建技术 |
第二节 本体论 |
一、本体的概念 |
二、本体描述语言 |
三、本体的构建 |
第三节 知识图谱与本体 |
第四节 爬虫技术 |
第五节 高中物理学科特点 |
第六节 信息抽取 |
一、实体识别 |
二、关系抽取 |
三、词向量 |
第七节 Neo4j图数据库 |
第八节 本章小结 |
第三章 高中物理知识图谱构建设计 |
第一节 本体构建分析 |
第二节 构建方法设计 |
第三节 数据源分析 |
第四节 知识图谱的构建过程 |
一、确定构建目标和专业领域 |
二、确定核心知识概念集 |
三、建立类层次结构 |
四、定义属性及属性约束 |
五、物理语义标注 |
六、信息抽取 |
七、知识图谱可视化 |
第五节 Neo4j存储 |
一、解析降维 |
二、数据映射 |
第六节 本章小节 |
第四章 基于知识图谱的在线学习系统设计 |
第一节 系统需求分析 |
第二节 系统总体设计 |
第三节 系统数据库表设计 |
第四节 系统详细设计和实现 |
第五章 总结与展望 |
第一节 论文总结 |
第二节 局限与展望 |
参考文献 |
致谢 |
(3)基于深度轨迹学习的人群移动和社交知识发现研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 问题切入与研究思路 |
1.3 国内外研究现状分析 |
1.4 本文主要贡献与创新 |
1.5 论文组织结构 |
第二章 相关理论基础 |
2.1 表示学习 |
2.2 序列信息表征学习 |
2.3 深度生成模型学习 |
2.4 本章小结 |
第三章 基于轨迹嵌入的人群移动性识别 |
3.1 人群移动性识别 |
3.2 相关研究 |
3.3 TUL问题定义 |
3.4 TULER模型描述 |
3.4.1 概述 |
3.4.2 轨迹预处理 |
3.4.3 轨迹表征 |
3.4.4 轨迹-用户链接 |
3.4.5 优化手段 |
3.5 实验验证与分析 |
3.5.1 数据准备 |
3.5.2 实验准备 |
3.5.3 实验结果分析 |
3.6 本章小结 |
第四章 基于变分注意力的下一个兴趣点预测 |
4.1 下一个兴趣点预测 |
4.2 相关研究 |
4.3 问题定义 |
4.4 VANext模型描述 |
4.4.1 概述 |
4.4.2 因果POI嵌入 |
4.4.3 近期轨迹学习模块 |
4.4.4 历史轨迹学习模块 |
4.4.5 模型优化 |
4.5 实验验证与分析 |
4.5.1 数据准备 |
4.5.2 实验准备 |
4.5.3 结果分析 |
4.6 本章小结 |
第五章 基于人群移动性对抗学习的出行推荐 |
5.1 出行推荐分析 |
5.2 相关研究 |
5.3 出行推荐问题定义 |
5.4 出行推荐方案 |
5.4.1 DeepTrip概述 |
5.4.2 出行编码器设计 |
5.4.3 出行解码器设计 |
5.4.4 对抗网络设计 |
5.5 算法分析 |
5.5.1 理论推导 |
5.5.2 训练算法流程 |
5.5.3 推荐流程 |
5.6 实验分析与验证 |
5.6.1 数据准备 |
5.6.2 实验准备 |
5.6.3 结果分析 |
5.7 本章小结 |
第六章 基于轨迹的社交圈推理 |
6.1 问题描述 |
6.2 TSCI相关研究 |
6.3 问题定义 |
6.4 Deep TSCI方案描述 |
6.4.1 轨迹预处理 |
6.4.2 DeepTSCI框架 |
6.4.3 训练手段 |
6.5 实验验证与分析 |
6.5.1 数据准备 |
6.5.2 实验准备 |
6.5.3 结果分析 |
6.5.4 鲁棒性分析 |
6.6 本章小结 |
第七章 全文总结与展望 |
7.1 全文总结 |
7.2 后续工作展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的成果 |
(4)主题词匹配的收藏文档标题分类研究(论文提纲范文)
致谢 |
摘要 |
abstract |
变量注释表 |
1 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.3 论文研究内容与结构 |
2 文本关键信息抽取理论基础 |
2.1 文本挖掘任务与流程 |
2.2 中文文本预处理 |
2.3 关键信息抽取 |
2.4 关键信息抽取模型 |
2.5 本章小结 |
3 短文本主题词抽取算法研究 |
3.1 主题词选取规范 |
3.2 算法整体流程 |
3.3 数据集预处理 |
3.4 候选主题词选择 |
3.5 精简主题词集 |
3.6 主题词表示 |
3.7 本章小结 |
4 收藏文档标题分类方法研究 |
4.1 收藏文档分类规范 |
4.2 数据集采集 |
4.3 收藏文档标题分类算法 |
4.4 收藏文档标题分类结果 |
4.5 本章小结 |
5 实验结果与分析 |
5.1 实验环境与数据集描述 |
5.2 短文本主题词抽取实验 |
5.3 对比实验 |
5.4 本章小结 |
6 结论与展望 |
参考文献 |
作者简历 |
学位论文数据集 |
(5)基于社交网络文本框架语义分析的药品不良事件提取(论文提纲范文)
中文摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 药品不良事件概念的提出 |
1.2.2 药品不良事件监测现状 |
1.2.3 药品不良事件提取研究现状 |
1.2.4 普遍领域事件提取研究现状 |
1.3 本文研究内容及论文结构 |
1.3.1 本文主要研究内容 |
1.3.2 论文的组织结构 |
1.3.3 本文研究方法 |
第二章 框架语义分析 |
2.1 框架语义理论 |
2.2 框架语义分析 |
2.2.1 分析流程 |
2.2.2 语言技术平台 |
2.2.3 文本预处理 |
2.2.4 句法分析 |
2.2.5 框架语义类识别 |
2.2.6 语义角色标注 |
2.3 本章小结 |
第三章 药品不良事件提取 |
3.1 药品不良事件提取流程 |
3.2 药品不良事件模板 |
3.3 药品不良事件槽填充 |
3.3.1 事件类型的识别 |
3.3.2 药物名称和评论者的填充 |
3.3.3 感知部位的填充 |
3.3.4 计算程度值 |
3.4 实例分析 |
3.5 本章小结 |
第四章 实验分析 |
4.1 数据概况 |
4.2 实验过程 |
4.3 实验结果与分析 |
4.4 本章小结 |
第五章 结论 |
5.1 研究工作总结 |
5.2 创新之处 |
5.3 本研究的不足和未来研究方向 |
参考文献 |
致谢 |
个人简况及联系方式 |
(6)国内基于本体的信息抽取研究现状与热点分析(论文提纲范文)
1 引言 |
2 国内基于本体的信息抽取研究内容重点剖析 |
2.1 领域本体的构建 |
2.2 基于本体的信息抽取方法 |
2.3 基于本体的信息抽取模型 |
2.4基于本体的信息抽取算法 |
2.5 基于本体的信息抽取系统 |
2.6 基于本体的信息抽取的应用领域 |
3 国内基于本体的信息抽取研究的特点、不足与发展建议 |
3.1 特点 |
3.1.1 研究内容从理论走向实践 |
3.1.2 研究主体的多样性 |
3.1.3 尚未形成核心作者和核心机构 |
3.2 不足及未来发展建议 |
3.2.1 本体构建的自动化 |
3.2.2 基于本体的信息抽取的评估机制 |
3.2.3 基于本体的信息抽取的实际应用 |
(7)社交媒体文本数据的知识发现模型与实证研究(论文提纲范文)
中文摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景、目的与意义 |
1.1.1 研究背景 |
1.1.2 研究目的 |
1.1.3 研究意义 |
1.2 国内外研究现状 |
1.2.1 国内外研究进展 |
1.2.1.1 社交媒体研究现状 |
1.2.1.2 数据挖掘与知识发现研究现状 |
1.2.1.3 社交媒体知识发现研究现状 |
1.2.1.4 命名实体识别与实体关系识别研究现状 |
1.2.1.5 语义映射研究现状 |
1.2.1.6 推理规则研究现状 |
1.2.2 国内外研究现状述评 |
1.3 研究内容 |
1.3.1 章节安排 |
1.3.2 拟解决的关键问题 |
1.4 研究方案 |
1.4.1 研究方法 |
1.4.2 技术路线 |
1.5 本文的贡献或创新点 |
1.6 本章小结 |
第2章 相关理论与技术 |
2.1 社交媒体文本数据知识发现理论基础 |
2.1.1 社交媒体及社交媒体数据特点 |
2.1.1.1 社交媒体 |
2.1.1.2 社交媒体数据特点 |
2.1.2 知识发现理论 |
2.1.3 社交媒体文本数据信息抽取的任务和内容 |
2.1.4 数据命名实体识别及相关理论 |
2.1.5 社交媒体资源间语义关系识别相关理论 |
2.1.6 社交媒体知识发现——事件探测相关理论 |
2.2 社交媒体知识发现相关技术方法 |
2.2.1 常用知识发现技术方法 |
2.2.2 信息抽取技术 |
2.2.3 社交媒体知识发现之命名实体识别方法 |
2.2.4 社交媒体知识发现之实体语义关系识别方法 |
2.2.5 社交媒体知识发现之事件探测方法 |
2.3 本章小结 |
第3章 社交媒体文本数据知识发现策略 |
3.1 社交媒体数据挖掘与知识发现的困难 |
3.1.1 数据载体的文本化 |
3.1.2 概念描述的口语化 |
3.1.3 关系表达的自由化 |
3.1.4 事件阐述的模糊化 |
3.1.5 知识蕴含的隐蔽化 |
3.2 社交媒体文本数据命名实体识别策略 |
3.2.1 社交媒体信息资源获取方案 |
3.2.2 基于领域本体的社交媒体数据实体规范化 |
3.3 基于语法规则的实体语义关系抽取策略 |
3.3.1 基于依存距离的语义关系分析 |
3.3.2 实体语义关系抽取的推理规则 |
3.4 社交媒体文本数据中蕴含事件的探测策略 |
3.4.1 基于本体消歧主题模型的概念/关系挖掘 |
3.4.2 基于领域本体与领域金标准的事件探测和知识发现 |
3.5 社交媒体文本数据挖掘与知识发现策略 |
3.6 本章小结 |
第4章 社交媒体文本数据知识发现模型构建 |
4.1 知识发现总体架构 |
4.2 数据层 |
4.2.1 数据源选择 |
4.2.2 文本库构建 |
4.3 自然语言处理层 |
4.3.1 实体识别与抽取 |
4.3.2 句法分析 |
4.4 语义分析层 |
4.4.1 领域本体与本体映射 |
4.4.2 语义揭示 |
4.5 关系抽取层 |
4.5.1 推理规则制定 |
4.5.1.1 领域概念间的相对距离 |
4.5.1.2 推理规则 |
4.5.2 语义关系识别 |
4.6 事件探测层 |
4.6.1 多个领域本体之间语义映射 |
4.6.2 与领域知识库的比对 |
4.6.3 领域专家验证 |
4.7 本章小结 |
第5章 社交媒体文本数据知识发现模型运行机制 |
5.1 需求动力机制 |
5.1.1 催生模型的外部条件 |
(1) 大数据战略的牵引力 |
(2) 知识服务的驱动力 |
5.1.2 模型存在的内生动力 |
(1) 知识共享的推动力 |
(2) 知识创新的自动力 |
5.2 社交媒体文本数据知识发现子系统 |
5.2.1 数据获取模块 |
5.2.2 文本数据分析模块 |
5.2.3 结果评价模块 |
5.2.4 子系统中的数据流 |
5.3 语义映射机制 |
5.3.1 实体规范化的要素 |
(1) 社交媒体文本数据 |
(2) 自然语言处理技术 |
(3) 领域词表 |
5.3.2 语义映射过程中的作用机理 |
5.4 基于规则的推理机制 |
5.4.1 语义分析的要素 |
(1) 实体集合 |
(2) 语义关系分析 |
(3) 推理规则 |
5.4.2 语义分析的推理机制 |
5.5 事件探测反馈机制 |
5.5.1 事件探测的要素 |
(1) 实体关系集 |
(2) 语义映射 |
(3) 领域金标准 |
5.5.2 语义映射的事件探测反馈机制 |
5.6 连接内外通路的接口机制 |
(1) 数据通路 |
(2) 需求通路 |
5.7 本章小结 |
第6章 社交媒体文本数据知识发现实证研究 |
6.1 医学领域数据资源的特点 |
6.2 虚拟健康社区自由文本数据获取 |
6.2.1 数据源选择 |
6.2.2 数据获取 |
6.2.3 数据库存储表结构设计 |
6.2.4 文本库构建 |
6.3 虚拟健康社区文本数据命名实体识别 |
6.3.1 命名实体识别工具 |
6.3.2 基于UMLS的虚拟健康社区数据实体规范化 |
(1) 领域概念识别 |
(2) 句子切分 |
6.3.3 CHV对实体识别率的提高作用 |
6.4 语义关系抽取 |
6.4.1 推理规则应用 |
6.4.2 概念/关系对识别 |
6.5 虚拟健康社区中药物不良反应事件探测 |
6.5.1 金标准——SIDER药物不良反应数据库 |
6.5.2 药物不良反应事件探测 |
6.6 知识发现的验证和评价 |
6.6.1 构建评价数据集 |
6.6.2 评价过程 |
6.7 领域专家评价 |
6.8 本章小结 |
第7章 结语与展望 |
7.1 总结 |
7.1.1 本文的主要内容 |
7.1.2 本文的贡献 |
7.1.3 本研究的局限性 |
7.2 展望 |
参考文献 |
在学期间所取得的科研成果 |
致谢 |
(8)基于垂直搜索引擎的农业信息推荐关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 农业网络资源 |
1.2.2 农业信息推荐技术 |
1.2.3 搜索引擎技术概述 |
1.2.4 推荐方法 |
1.3 论文主要内容 |
第二章 基于字标注分词方法的农业垂直搜索引擎设计 |
2.1 垂直搜索引擎分析 |
2.1.1 垂直搜索的特点 |
2.1.2 垂直搜索引擎关键技术 |
2.2 基于Nutch的农业垂直搜索引擎 |
2.2.1 农业垂直搜索引擎设计流程 |
2.2.2 Nutch |
2.2.3 Nutch的架构 |
2.2.4 Nutch的参数配置 |
2.3 基于字标注的中文分词技术 |
2.3.1 中文分词方法 |
2.3.2 中文分词关键技术 |
2.3.3 基于字标注的中文分词器设计 |
2.3.4 实验结果分析 |
2.4 本章小结 |
第三章 农业领域空间属性抽取方法研究 |
3.1 农业信息抽取方法概述 |
3.1.1 信息抽取 |
3.1.2 农业信息抽取方法评估标准 |
3.1.3 农业领域空间属性标注流程和方法 |
3.1.4 农业领域本体 |
3.2 农业领域空间属性抽取算法研究 |
3.2.1 显性农业领域空间属性抽取算法 |
3.2.2 隐性农业领域空间属性抽取算法 |
3.2.3 基于χ~2检验的空间属性抽取算法 |
3.3 实验结果分析 |
3.4 本章小结 |
第四章 基于农业资源分类标签的贝叶斯网络用户兴趣模型研究 |
4.1 用户兴趣建模关键技术 |
4.1.1 用户信息的来源 |
4.1.2 用户信息的识别 |
4.1.3 用户信息的收集 |
4.1.4 用户模型的表示 |
4.1.5 用户建模技术的类型 |
4.1.6 涉农用户信息需求调查 |
4.1.7 涉农用户兴趣模型 |
4.2 涉农用户浏览行为的兴趣度估算研究 |
4.2.1 浏览行为对涉农用户兴趣的体现 |
4.2.2 间接行为与涉农用户兴趣度相关性分析 |
4.2.3 基于浏览行为的涉农用户兴趣度估算 |
4.3 基于农业资源分类标签的贝叶斯网络用户兴趣模型ATBUIM研究 |
4.3.1 ATBUIM的组成结构 |
4.3.2 ATBUIM的表示方法 |
4.3.3 ATBUIM的初始化 |
4.3.4 ATBUIM的更新和优化 |
4.4 本章小结 |
第五章 基于泛函网络和特征因素的组合推荐算法研究 |
5.1 基于内容的推荐算法研究 |
5.1.1 基于内容的推荐算法流程 |
5.1.2 基于ATBUIM的推荐算法 |
5.2 基于关联规则的推荐算法研究 |
5.2.1 关联规则的挖掘 |
5.2.2 关联规则算法 |
5.2.3 产生关联推荐 |
5.2.4 关联规则推荐算法的局限性 |
5.3 协同过滤推荐算法研究 |
5.3.1 协同过滤算法的推荐流程 |
5.3.2 协同过滤算法优劣分析 |
5.3.3 综合涉农用户和项目特征因素评分的推荐算法 |
5.3.4 实验结果分析 |
5.4 泛函网络模式下的组合推荐算法 |
5.4.1 泛函网络概述 |
5.4.2 基于泛函网络的组合推荐算法 |
5.4.3 实验结果分析 |
5.5 本章小结 |
第六章 面向农业领域知识的自适应决策模型研究 |
6.1 引言 |
6.2 自适应决策过程 |
6.3 AKDM决策模型 |
6.3.1 环境建模 |
6.3.2 知识建模 |
6.3.3 服务与消息建模 |
6.4 AKDM转换函数设计 |
6.5 面向农业领域的自适应决策模型应用 |
6.6 本章小结 |
第七章 总结与展望 |
7.1 论文总结 |
7.2 论文展望 |
参考文献 |
致谢 |
攻读学位论文期间发表文章 |
(9)教育新闻平台的优化设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 项目背景 |
1.2 研究现状 |
1.2.1 新闻平台现状 |
1.2.2 新闻推荐现状 |
1.3 研究目标 |
1.4 论文组织 |
第二章 相关理论与技术 |
2.1 搜索引擎技术 |
2.1.1 网络爬虫 |
2.1.2 信息抽取 |
2.2 推荐技术 |
2.3 主题模型 |
2.3.1 LDA主题模型 |
2.3.2 Gibbs采样算法 |
2.4 本章小结 |
第三章 新闻采集模块的优化设计 |
3.1 采集模块的优化目标 |
3.2 采集模块的设计 |
3.3 新闻信息采集 |
3.3.1 门户网站新闻采集 |
3.3.2 微信公众号新闻采集 |
3.4 信息抽取及存储 |
3.4.1 新闻抽取 |
3.4.2 跨平台的信息存储 |
3.5 本章小结 |
第四章 新闻推荐模块的设计与实现 |
4.1 新闻推荐的特点 |
4.2 新闻推荐的总体设计 |
4.3 新闻推荐的实现 |
4.3.1 数据集的构建 |
4.3.2 数据集的处理 |
4.3.3 训练LDA主题模型 |
4.3.4 新闻混合推荐 |
4.4 本章小结 |
第五章 教育新闻平台的优化实现 |
5.1 系统的架构方案 |
5.1.1 系统模块结构 |
5.1.2 系统实现方法 |
5.2 系统的具体实现 |
5.2.1 新闻、微信采集模块的具体实现 |
5.2.2 新闻推荐模块的具体实现 |
5.3 系统实验 |
5.3.1 系统环境 |
5.3.2 系统实验 |
5.3.3 系统性能 |
5.4 系统部署与运行 |
5.4.1 系统部署 |
5.4.2 运行与结果 |
5.5 本章小结 |
结论和展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
答辩委员签名的答辩决议书 |
(10)面向在线社交网络舆情的信息传播分析关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.1.1 在线社交网络概述 |
1.1.2 在线社交网络舆情 |
1.1.3 在线社交网络中的信息传播 |
1.1.4 面向在线社交网络舆情的信息传播分析技术所面临的挑战 |
1.2 相关研究工作 |
1.2.1 社交网络中信息传播模型 |
1.2.2 面向信息传播的连接强度计算 |
1.2.3 用户兴趣发现 |
1.2.4 信息传播中的演化性 |
1.2.5 话题发现、跟踪与热度预测 |
1.3 研究内容与主要创新 |
1.4 论文结构 |
第二章 微博中主题和时间敏感的连接强度计算 |
2.1 引言 |
2.2 问题定义 |
2.2.1 相关概念 |
2.2.2 任务描述 |
2.3 主题和时间敏感的连接强度在线计算模型 |
2.3.1 模型的假设 |
2.3.2 基本连接强度模型 |
2.3.3 主题敏感的连接强度计算模型 |
2.3.4 时间敏感的连接强度计算模型 |
2.3.5 基于OLDA的连接强度在线计算模型 |
2.4 基于连接强度的微博用户传播行为预测 |
2.5 实验及结果分析 |
2.5.1 数据集描述 |
2.5.2 评价标准与参数设置 |
2.5.3 主题内容分析 |
2.5.4 主题内容演化分析 |
2.5.5 用户传播行为预测性能比较 |
2.6 本章小结 |
第三章 面向信息传播的微博用户兴趣发现 |
3.1 引言 |
3.2 问题定义 |
3.2.1 相关概念 |
3.2.2 任务描述 |
3.3 结合微博特征的用户兴趣关键词抽取方法 |
3.3.1 UIKE的处理流程 |
3.3.2 候选兴趣关键词生成 |
3.3.3 结合微博特征的关键词特征设计 |
3.3.4 分类模型的选择 |
3.4 基于微博用户分类的用户兴趣发现效果检验 |
3.5 实验与结果分析 |
3.5.1 微博用户兴趣关键词抽取实验 |
3.5.2 基于微博用户分类的用户兴趣发现效果实验 |
3.6 本章小结 |
第四章 结合连接强度与用户兴趣的用户传播行为动态预测 |
4.1 引言 |
4.2 问题描述 |
4.2.1 相关概念 |
4.2.2 面向微群的用户传播行为动态预测的任务 |
4.3 面向微群的用户传播行为动态预测 |
4.3.1 影响用户传播行为的关键因素 |
4.3.2 模型框架概述 |
4.3.3 基于LDA模型的个人兴趣模型 |
4.3.4 基于回复关系的影响力模型 |
4.3.5 基于自重启随机游走的话题兴趣度排序模型 |
4.3.6 动态的话题兴趣度排序模型 |
4.4 实验与结果分析 |
4.4.1 数据集描述 |
4.4.2 实验设置与评价指标 |
4.4.3 对比方法 |
4.4.4 模型的参数估计 |
4.4.5 模型预测性能比较 |
4.5 本章小结 |
第五章 基于改进型神经网络的舆情话题热度预测 |
5.1 引言 |
5.2 问题定义 |
5.2.1 相关概念 |
5.2.2 任务描述 |
5.3 网络话题传播因素分析 |
5.3.1 影响话题热度变化的传播因素 |
5.3.2 基于灰色关联度的传播因素分析 |
5.4 基于GA-BPNN的话题热度预测方法 |
5.4.1 BP神经网络概述 |
5.4.2 基于标准BPNN的预测 |
5.4.3 改进型神经网络GA-BPNN |
5.4.4 基于GA-BPNN的话题热度预测模型 |
5.4.5 算法性能的比较分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 论文工作总结 |
6.2 下一步工作展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
攻读博士学位期间参与的科研项目 |
四、基于信息抽取的匿名用户兴趣描述(论文参考文献)
- [1]以事件为中心的旅游知识图谱的构建与应用[D]. 吴杰. 北京邮电大学, 2021(01)
- [2]高中物理学科知识图谱的构建与应用研究[D]. 瞿龙. 中央民族大学, 2020(03)
- [3]基于深度轨迹学习的人群移动和社交知识发现研究[D]. 高强. 电子科技大学, 2020(03)
- [4]主题词匹配的收藏文档标题分类研究[D]. 于思淼. 辽宁工程技术大学, 2020(02)
- [5]基于社交网络文本框架语义分析的药品不良事件提取[D]. 李朝翻. 山西大学, 2019(01)
- [6]国内基于本体的信息抽取研究现状与热点分析[J]. 阳广元. 图书馆理论与实践, 2017(05)
- [7]社交媒体文本数据的知识发现模型与实证研究[D]. 黄丽丽. 吉林大学, 2016(01)
- [8]基于垂直搜索引擎的农业信息推荐关键技术研究[D]. 李娜. 沈阳农业大学, 2016(01)
- [9]教育新闻平台的优化设计与实现[D]. 何俊杰. 华南理工大学, 2016(02)
- [10]面向在线社交网络舆情的信息传播分析关键技术研究[D]. 梁政. 国防科学技术大学, 2014(02)