一、Web访问挖掘中事务聚类研究(论文文献综述)
于魁[1](2021)在《移动互联网用户行为的隐私保护数据挖掘研究》文中提出近年来,随着5G移动通信、智能手机、互联网技术的飞速发展,移动互联网能够满足用户随时随地获取信息资源的需求。面对日益增长的信息服务需求和海量的用户行为数据,通常采用数据挖掘的方法发现用户的潜在价值与行为规律,推动健康医疗,智能交通,大数据征信等领域的发展。在移动互联网用户行为数据中含有丰富的位置轨迹,消费信用,兴趣点等个人隐私信息。这些信息被过度收集和访问时,会增加个人隐私泄露的风险。隐私保护数据挖掘技术(Privacy Preserving Data Mining,PPDM)能够满足数据挖掘与隐私保护的需求,是一种改进数据挖掘算法性能的优化技术。PPDM技术通过隐藏用户不能公开的信息内容,使原始数据不被窥探或攻击,确保用户数据的隐私性,并且经过隐私保护方法处理后,不改变数据的统计特征,满足挖掘算法对数据可用性的需求。本文针对用户行为的事务项目、事务序列、移动位置、上下文开展隐私保护数据挖掘的创新性研究,工作内容如下:(1)针对用户事务项集频繁模式的隐私保护数据挖掘问题,提出了基于FP-Tree的隐私保护频繁项集挖掘算法DPFIS。该算法分为数据预处理和频繁模式挖掘两个阶段。在数据预处理阶段,为了提高数据的读取效率,保护事务项集的隐私安全,利用FP-Tree结构,建立满足差分隐私保护的频繁模式树DPFP-Tree访问结构。在频繁模式挖掘阶段,为了降低噪声对数据的干扰,优化事务项支持度和项集长度的干扰噪声分配机制,利用打分函数的评分值控制指数噪声的添加量。采用相对阈值长度分裂方法,降低事务项集长度截断误差的影响,提升了挖掘结果的准确度;综合频繁项集挖掘实验结果的评价指,标F-score和RE分别提高了 14%和17%。(2)针对用户事务序列频繁模式的隐私保护数据挖掘问题,提出了基于FS-Trie的隐私保护频繁序列挖掘算法DPFSC。针对候选频繁序列集合的冗余问题,利用前缀树结构,建立满足差分隐私保护的频繁序列前缀树FS-Trie访问结构。为了降低子树分枝高度,设计序列长度打分函数,优化隐私预算分配方案,裁剪超出最优高度的子树分枝。为了保持DPFS-Trie中签到序列项的连贯性,采用面向前缀树分枝的“裁剪-拼接”策略,补偿序列截断造成的信息缺失,提升序列频繁模式挖掘结果的准确度。综合频繁序列挖掘实验结果的评价指标,F-score和RE分别提高了 11%和15%。(3)针对用户移动行为的位置隐私保护数据挖掘问题,提出了基于排队论的隐私保护人流量预测方法EM-PMM。针对位置服务质量的提升与个人位置隐私保护难协调的问题,采用Geohash技术设计一种网格模糊化的位置隐私保护方案。为了解决用户的移动造成人流量预测难的问题,针对目标区域的服务资源配置,设计用户移动状态模型。此外,利用最大期望法训练服从泊松分布的EM-PMM模型参数,估计目标区域内人员流动数量。基于排队论的移动状态模型对人流量的预测效果优于对比算法。综合实验结果指标,New-flows的RMSE和RE分别提升了 4.5%和2.3%,End-flows的RMSE和RE分别提升了 3.1%和 2.7%。(4)针对用户参与社交活动的上下文隐私保护群组活动推荐问题,提出了基于上下文主题模型的隐私保护群组活动推荐算法DP-SCTM。该算法融合时间、空间、内容和社会关系因素,满足用户对群组活动即时参与的需求,缓解数据稀疏和冷启动的问题。为了保护用户上下文隐私,设计满足差分隐私保护的上下文主题模型,在Gibbs采样过程中添加噪声干扰模型的训练结果。此外,为了解决用户参与群组活动中上下文隐私保护问题,优化隐私预算分配方案,控制模型参数迭代训练结果,调整用户画像排名和活动候选项目列表的发布内容。基于上下文隐私保护的主题模型对群组活动的推荐效果优于对比算法。综合实验结果指标,Precision和Recall值分别提升了 16%和18%。
王颖[2](2020)在《基于Web日志的并行化聚类算法研究及应用》文中认为信息技术快速发展的同时带来了网络上信息含量的猛增。从大量冗余信息中快速准确获取目标内容变得不那么容易了。然而用户最期望可以直接略过自己不感兴趣的信息,快速直接的获取需要的内容。网站经营者则希望通过用户的访问记录挖掘用户的行为模式,然后对站点结构做出调整,更好进行商务推广活动。无形中加深了信息获得和供给的矛盾。本文正是基于这种矛盾提出以Web日志数据为基础对用户群体的行为模式进行聚类分析。为解决存在的矛盾冲突提出了一些方案。在仔细研读关于Web日志数据的聚类挖掘文章,分析和理解被提出的各种相关理论和方法后。本文提出了一种并行化的聚类算法,而且应用在现实Web日志数据上取得了极佳的聚类效果。因为实际中的日志数据质量并不能满足聚类要求,所以在聚类前有必要执行预处理步骤。预处理中比较重要的部分是能够利用提出的多条件约束法去准确识别用户。然后通过实验设置STT值进行用户会话的识别。为了后续聚类方便,需要识别用户的事务,采用改进的事务识别算法可以很好的区分导航页和内容页,进行有效事务识别。接下来针对K-Means需要人为随机给出聚类的个数K,以及每个类的中心数据点的缺陷。本文首先改进Canopy算法,克服阈值T1、T2的缺陷获得Canopy个数,成为K-Means算法所需的k值,所有Canopy中心点都成为K-Means初始聚类中心。然后通过实验验证将算法并行化到Hadoop集群上能在提高平均准确率到94.67%的基础上,降低了算法的执行时间。最后以Web日志数据为基础设计了能对用户行为进行分析聚类的系统,验证了理论上的研究也可以运用到实际操作中。图32表9参82
夏烈阳[3](2019)在《大数据背景下基于Web日志的用户访问模式挖掘研究》文中研究说明随着互联网的快速发展,网络用户规模不断扩大,网络用户比例不断增加,网络用户行为也变得越来越复杂。尽管许多学者对Web挖掘技术和用户行为挖掘进行了深入研究,但仍存在一些问题。传统的数据挖掘算法在大数据处理效率方面并不令人满意。与此同时,对于电子商务领域,随着网购越来越流行,网民的不断增加以及新的商品出现,大量的商品和用户没有发生交互数据,系统更倾向于给用户推荐热门商品,导致大多数电子商务平台中都存在重复推荐的情况,无法提供更精准的个性化服务,以及长尾物品的发现和物品的权重调整。同时大量的中小型企业想完成数据驱动服务的升级,包括用户行为挖掘、个性化推荐等。这些问题迫切需要解决。因此,本文选择电子商务领域,基于电子商务后台日志的数据特征,重点分析和研究电子商务用户行为,构建用户行为挖掘的基本模式。本文研究内容主要包括以下几点:首先,在深入了解Web用户行为理论的基础上,基于交互的内容对用户的行为进行分类,同时基于大数据背景,在介绍了传统的一些数据挖掘算法的基础上,做了进一步的优化,以符合现实的商业化需求,对于Web日志来说,在大数据环境以及多样的用户行为的影响下,其采集方法与处理方法变得更加的复杂,本文在此基础上深入研究和理解Web用户的行为特征以及Web日志的数据表示并总结出了互联网用户行为所具有的特征。其次,基于上述研究成果,针对大数据时代的应用场景,在对传统算法改进的基础上进行并行化处理,大幅提高算法的运行效率,同时采用分布式的文件存储结构,提高了系统数据处理的容错性。同时,深入研究了协同过滤推荐算法的优缺点。协同过滤当前有着非常广泛的应用,在不改变协同过滤算法的基础上,引入迁移学习,提出了基于标签共享和用户兴趣的跨域迁移的推荐。实验结果表明,与现有的协同过滤推荐算法相比,基于迁移学习的推荐模型的准确率有一定程度的提高,也有助于解决数据稀疏性引起的冷启动问题。同时对原来系统中已存在的推荐算法,对其算法本身的侵入性非常的小。最后,基于上述研究内容和结果,本文构建的Web用户行为挖掘系统,可进行多维度高效率的挖掘。它通过精准的营销和准确的建议,帮助电子商务商家、内容提供商等了解他们的用户并实现更好的商业价值,完成数据驱动服务的升级。
简圣光[4](2019)在《融入Web数据挖掘的校企人才对接平台的研究和实现》文中进行了进一步梳理过去几十年,Web数据随着互联网的迅猛发展不断激增,如何有效地从这些难以计数的Web数据之中挖掘隐藏的、有价值的信息并加以利用,已成为当前数据挖掘领域的研究热点。另一方面,据调研,仅有10%的大学生第一次就业时找到了完全适合自己的工作。这反映了当前高校大学生对所学知识与工作内容的契合度没有充分的了解。而企业也长期存在精准定位招聘人才难,招聘成本高、周期长、效果差,留住人才难、人才沟通难等问题。针对上述问题,本文提出两个Web数据挖掘算法,并通过实际调研,从当前学生和企业的普遍痛点入手,以茶歇文化为媒介,设计搭建了一个用于高校与企业的人才对接的系统平台。同时将两个Web数据挖掘算法融入其中,以持续改善用户使用体验。论文主要工作有:(1)提出一种新的基于图模型的岗位信息文档关键词提取算法以挖掘当前热门的关键词。该算法使用传统的TextRank提取出来的关键词构造顶点,以时间和点击量两个因素计算边权重,最后进行随机游走不断迭代提取出关键词。(2)提出一种改进的AprioriAll算法从Web日志中挖掘用户的偏好路径。该算法减少了数据库的扫描次数,并通过先验地剪除不满足最小支持度的侯选项集的方法仅生成有效的候选项集。实验表明,相比原算法,改进后的AprioriAll算法具有更低的时空复杂度,挖掘性能得到了提升。(3)使用Spring Boot+Mybatis+Vue.js全栈技术完整地实现了一个校企人才对接系统平台,并利用上述算法实现了岗位关键词提取和用户偏好路径挖掘模块。最后对系统进行了功能和性能测试,结果表明Web数据挖掘算法提升了校企人才对接的效率。
郁恩月[5](2018)在《基于数据挖掘的校园网用户行为分析系统的设计与实现》文中研究说明随着我国经济水平的提升及网络信息技术的发展,网络已经变成人们生活中无法缺少的一部分,与大众的生活息息相关。经过二十余年的发展,校园网络在我国各高校都获得了较好的应用,无论是在学习、教学工作还是在生活上都给老师和学生带来巨大的改变,人们的生活也变得越来越便利。与此同时,随着校园网用户数量的不断增加,校园网管理工作面临越来越多的问题。因此,通过引入数据挖掘算法对校园网用户行为进行分析和特征描述对校园网建设的优化及服务水平的提高有着十分重要的意义和价值。本文以A大学校园网为例,获取和解读校园网流量控制服务器上的用户访问日志文件,采用数据挖掘方法对校园网用户行为进行分析,旨在探究校园网用户的访问目标划分和访问习惯,进而为校园网络优化提供建议。以此挖掘流程为核心工作,构建了校园网用户行为分析系统。具体工作包括:实现了对校园网用户公网访问日志的采集和理解。针对用户访问日志文件分散、格式不统一的实际情况,本文结合数据库对日志进行汇总管理,实施了数据清理、整理归档、标准化等功能,同时在进行数据处理的同时还可以实现对数据的理解解释,整理出了原始数据中的主要字段,使得访问日志的管理更加便捷,结构更加规范。实现基于校园网数据的访问目标分析。以用户的出口地址和流量信息等数据为基础,本文引入了聚类方法,实现了对校园网用户访问地址的有效划分,解释了不同访问目标的具体差异情况,进而为网络中心优化出口带宽工作提供可行的决策数据支撑。其中,为了观察离散点对聚类效果的影响,本文分别实现了 K-均值算法、K-中心点算法,引入了结合凝聚方法的改进K-均值算法,提高了算法的分析效率和聚类结果的稳定性。实现基于校园网的用户访问习惯分析。以用户访问站点的域名信息等数据为基础,本文引入并实现了 Apriori关联规则挖掘算法,通过挖掘获得的关联规则解释校园网用户群体在访问习惯上的偏好情况,有助于加深对校园网用户群体上网情况了解。本文从校同网使用实际出发,对用户群体的聚类分析有助于对校园网公网出口建设进行优化,对访问习惯的关联分析有助于更深入了解用户群体,有助于高校学生思想引导工作的开展,具有一定的现实意义。
江惠彬[6](2015)在《基于Web日志的用户行为分析系统的研究与实现》文中研究说明自互联网诞生以来,随着网络技术的不断发展,网络已逐步成为人们获取各种信息资源的首要途径,网络在极大地丰富人们日常生活的同时,经过几十年的发展积累了海量的用户行为数据。面对如此宝贵的资源,如何有效地从海量用户数据当中挖掘出其中潜在的、隐藏的、有价值的信息并加以利用,已成为当前数据挖掘领域的研究热点。本文通过对Web日志进行分析挖掘出用户潜在的一些行为规律。本文在对已有的Web数据挖掘模型及算法分析总结的基础上,提出了一种改进的AprioriAll算法来挖掘用户频繁访问路径,同时提出了一种基于浏览路径和访问兴趣的用户聚类算法。通过改变候选序列的连接方式减少候选序列的产生和减少不必要的数据库扫描,改进后的AprioriAll算法降低了原算法的时空复杂度,提高了挖掘性能。在用户聚类分析上,首先利用用户的访问路径得到Web站点的用户相似矩阵,并在此基础上对用户进行聚类得到一个初始用户聚类,然后利用连接强度公式判断初始聚类内的每个用户与其所属聚类的内聚度,并把内聚度偏低的用户从当前聚类中剔除出去,从而细化初始聚类。由于同时考虑了用户的访问路径、访问时间和访问频次,算法的精确度得到一定程度的提升。最后,本文通过java语言实现了一个简单的Web日志挖掘原型系统,在对Web日志进行预处理的基础上挖掘出用户频繁访问的路径集和具有相似访问行为的用户聚类。通过实验表明,本文研究实现的用户行为分析系统具有较好的实现效果,算法的高效性和准确性得到了验证。
石敏[7](2014)在《基于聚类划分的关联规则在Web日志挖掘中的应用研究》文中认为随着电子商务、Web服务以及基于Web的信息系统的快速发展和壮大,基于Web的组织在日常运作中已经收集了大量的Web日志信息。分析并发现这些潜在的规律及知识,对于用户访问、广告投放和个性化服务等应用有着重大的意义。本文将将针对Web日志中半结构化数据集,以发现Web用户访问记录中潜在的规律和知识为目标。以Web日志关联规则挖掘模式为方法,提出了一种改进的基于聚类划分的Web日志关联规则挖掘方法。Web日志挖掘是指自动发现和分析模式、这些模式来自于收集的点击流和相关数据或用户与一个或多个网站互动的结果。其目标是捕捉、建模并分析用户与网站交互的行为模式和模型。所发现的模式经常被表示成有着共同需求或兴趣的一群用户频繁访问的页面、对象或者资源的集合。而对整合好的记录数据进行分析的类型和层次依赖于分析员的最终目标和预期的结果。在本文里,也描述了Web使用记录挖掘领域里最常用的模式发现类型以及分析技术在应用中的实践。本文工作如下:(1)介绍了Web使用日志挖掘的发展背景与国内外发展现状,总结了当前Web使用日志挖掘技术的一些算法,并在已有的算法基础上提出了改进的方向;(2)本文再针对原始Web日志数据的半结构化和冗余特性,提出了日志预处理的一些步骤与方法,针对预处理之后的数据进行了一定的建模,使得后面的挖掘步骤能够有条不紊的进行,也保证了后续挖掘的数据质量;(3)针对Web日志挖掘中的一些关键算法进行了详细的陈述与分析,对算法中存在的劣势也提出了一些改进方向;(4)针对Web日志中的原始关联规则Apriori算法提出了基于聚类划分的Apriori算法,克服了原始算法挖掘规则覆盖率不够高的问题,并且就原始算法和改进的算法做了一个仿真实验,并针对实验后的结果进行了对比分析,验证了改进后的算法在挖掘性能上的提升,最后给出了推荐系统的原型设计。
赵晶晶[8](2014)在《基于Web日志挖掘的用户访问兴趣研究》文中进行了进一步梳理随着互联网技术的高速发展,网络上的信息量已经达到空前的规模,不论通过计算机还是手机人们都可以从网上获得自己想要的信息。如何从海量数据中快速准确获得有用的信息以及发掘其中潜在的有价值的知识和模式,让互联网变得更加智能化,让人们获得更好的网络体验,这些成为了互联网时代亟待解决的问题。在此背景下Web数据挖掘技术应运而生,成为了解决上述难题的有效途径之一。Web数据挖掘主要包括Web内容挖掘、Web结构挖掘、Web日志挖掘三方面,本文主要研究背景为Web日志挖掘。由于Web日志数据具有高维、巨量、半结构或无结构等特性,传统的数据挖掘算法不能很好的满足性能需求,因此本文将群智能算法中的粒子群算法应用到了用户聚类中,通过实验验证了该算法在高维数据上的性能优于传统的聚类算法。本文首先研究了经典的聚类算法和粒子群优化算法的基本原理并比较分析了它们的优缺点。其次,针对现有聚类算法中存在的易陷入局部最优、高维数据上性能不稳定等问题,提出了改进的基于K-means的粒子群算法,通过定义分散度来确定K-means算法的操作时机,充分利用了K-means算法的局部搜索能力和粒子群聚类算法的全局搜索能力,加快了收敛速度的同时也提高了解的精度。接着本文对粒子群算法中的惯性权重加以改进,引入适应度方差的概念,使惯性权重随适应度方差进行非线性地自适应调整。为了避免随机搜索导致的退化现象,在粒子群中还加入了一定概率的变异操作来降低聚类过早陷入局部最优解的可能性。然后,本文由分而治之的思想启发,构建了一种分层的Web日志挖掘方案。在对日志文件进行采集、清洗、事务识别、特征提取等预处理后,先用本文提出的改进算法对日志数据进行用户聚类,再使用关联规则进行挖掘用户访问模式,减小了关联规则挖掘的规模和复杂度。最后,通过实验结果验证了本文改进的算法在普通和高维Web日志数据集上都具有聚类正确性高、迭代次数少、性能稳定等优势,并且能够有效地挖掘出明显的用户访问兴趣。
赵培鸿[9](2013)在《招生信息网的Web日志挖掘技术研究》文中提出随着Internet技术的不断发展和网络应用的广泛普及,Web站点产生了丰富的信息资源,从而也推动了Web数据挖掘技术的研究和应用。Web日志挖掘作为Web数据挖掘的重要研究之一领域,是利用数据挖掘技术从Web日志记录中发现Web用户的行为模式。Web日志记录,除了服务器的日志外还包括代理服务器日志、浏览器端日志以及Cookie中的信息等用户与站点之间交互的记录。Web日志数据中记录了大量的用户及路径信息,通过挖掘这些信息能够得到用户的访问模式,在个性化信息服务、改进站点设计及构建智能化Web站点等方面有重要的意义。在学习、总结和分析Web日志挖掘理论和方法的基础上,以北京联合大学应用文理学院招生信息网为研究对象,使用Web日志关联规则挖掘技术从招生信息网Web日志记录中发现用户的访问模式,发掘网站使用的情况及潜在需求。通过研究Web日志数据预处理的相关理论和方法,结合招生信息网的站点结构特点,分别设计了数据清理、用户识别、会话识别等环节的算法,并使用上述算法将Web日志转化成为挖掘算法可识别的数据集;通过研究Web日志关联规则挖掘的理论和方法,建立了一个关联规则挖掘系统,并使用该系统分析了阈值设定对挖掘结果的影响,从中找到合适的挖掘模型,实现了对招生信息网Web日志信息的关联规则挖掘;通过研究聚类分析挖掘的基本思想和方法,采用k-均值算法对招生信息网的访问用户进行基于相似兴趣的用户聚类。
荣臻[10](2013)在《基于用户浏览兴趣的Web日志聚类研究》文中研究表明伴随着计算机技术的迅速发展和科技的突飞猛进,网络得到了广泛的应用,已经成为人们沟通交流的重要途径之一。越来越多的人喜欢利用网络来获取自己所需要的信息,同时,网站作为最大的一个信息交互平台,受到越来越多的公司、企业重视,并且为他们获取了巨大利益做出了突出贡献。公司或企业的网站在运行的同时,如何根据用户的访问习惯和访问要求及时进行优化以满足他们的个性化需求,成为现代网络技术关注的重要问题。为解决这个问题,研究人员提出了Web口志挖掘的方法,通过计算Web日志中用户的相似度,再根据各种聚类方法进行聚类,最后根据聚类结果了解用户群体的需求和兴趣,从而改善网络服务,进而达到为用户提供史优质的服务甘的。Web日志挖掘作为数据挖掘中很重要的一个研究领域和研究方向,在研究过程中存在很多问题:首先,在用户的特征表示方面,研究人员无法正确的找出Web日志中用户的兴趣所在,只是单纯的把浏览页面分为目标页面和导航页面,不能准确的采用用户的浏览兴趣来表示用户特征;其次,在采用的聚类算法之前,经常忽略了Web口志中孤立点的影响。针对这两个问题,本文提出一种基于用户浏览兴趣的变色龙算法,从以下两个方面进行研究:(1)用户特征提取:根据用户浏览的兴趣来提取用户特征,采用事务识别的路径作为研究对象,将用户浏览时间和浏览内容相结合提取用户特征,最后根据这种用户特征计算用户相似度。实验表明,此方法体现了用户浏览兴趣的所在。(2)基于用户浏览兴趣的Web日志聚类:从Web日志的实际出发,采用EVCLUS算法处理孤立点,并采用基于用户浏览兴趣计算得到的用户相似度来表示变色龙聚类算法中两点之间的权重,排除孤立点,提高了变色龙算法抗噪声能力。本文以美国DePaul大学采集到的5446个用户、共20950条会话进行对比实验,实验结果证明基于用户浏览兴趣的变色龙算法能够很好的把握用户浏览兴趣,而且在排除孤立点、提高聚类效果等方面有了很大的提升。
二、Web访问挖掘中事务聚类研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、Web访问挖掘中事务聚类研究(论文提纲范文)
(1)移动互联网用户行为的隐私保护数据挖掘研究(论文提纲范文)
摘要 |
ABSTRACT |
缩略语 |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 研究问题与挑战 |
1.3 研究内容 |
1.4 创新点与贡献 |
1.5 论文组织结构 |
第二章 国内外研究现状 |
2.1 用户行为的研究 |
2.1.1 通信网络运营商的用户行为研究 |
2.1.2 互联网运营商的用户行为研究 |
2.1.3 移动互联网用户行为研究 |
2.2 隐私保护数据挖掘PPDM |
2.2.1 面向频繁模式问题的隐私保护数据挖掘研究 |
2.2.2 面向聚类问题的隐私保护数据挖掘研究 |
2.2.3 面向分类预测问题的隐私保护数据挖掘研究 |
2.2.4 面向推荐问题的隐私保护数据挖掘研究 |
2.3 本章小结 |
第三章 基于FP-Tree的隐私保护频繁项集挖掘方法 |
3.1 引言 |
3.2 问题定义 |
3.2.1 问题场景描述 |
3.2.2 挑战性问题 |
3.3 用户事务的差分隐私保护 |
3.3.1 ε分配机制的优化 |
3.3.2 输出结果的一致性约束 |
3.4 基于DPFP-Tree的隐私保护频繁项集挖掘方法 |
3.4.1 相对阈值分裂方法 |
3.4.2 DPFIS算法 |
3.4.3 算法分析 |
3.5 实验与分析 |
3.5.1 实验数据集 |
3.5.2 实验设置 |
3.5.3 实验结果与分析 |
3.6 本章小结 |
第四章 基于FS-Trie的隐私保护频繁序列挖掘方法 |
4.1 引言 |
4.2 问题描述 |
4.2.1 问题场景描述 |
4.2.2 挑战性问题 |
4.3 用户行为的事务序列数据隐私保护 |
4.3.1 事务序列的FS-Trie |
4.3.2 基于差分隐私保护的DPFS-Trie |
4.3.3 基于聚类的序列长度限制方法 |
4.4 基于DPFS-Trie的隐私保护频繁序列挖掘方法 |
4.4.1 DPFSC算法 |
4.4.2 算法分析 |
4.5 实验与分析 |
4.5.1 实验数据集 |
4.5.2 实验设置 |
4.5.3 实验结果与分析 |
4.6 本章小结 |
第五章 基于排队论的隐私保护人流量预测方法 |
5.1 引言 |
5.2 问题定义 |
5.2.1 问题场景描述 |
5.2.2 挑战性问题 |
5.3 用户位置的隐私保护 |
5.3.1 地理坐标的Geohash编码 |
5.3.2 Geohash网格的人流量统计 |
5.4 用户流动性的分类与预测 |
5.4.1 用户流动性分类 |
5.4.2 用户流动性建模 |
5.4.3 用户流动数量预测 |
5.5 实验与分析 |
5.5.1 实验数据集 |
5.5.2 实验设置 |
5.5.3 实验结果与分析 |
5.6 本章小结 |
第六章 基于上下文主题模型的隐私保护群组活动推荐方法 |
6.1 引言 |
6.2 问题定义 |
6.2.1 问题场景描述 |
6.2.2 挑战性问题 |
6.3 群组活动推荐模型SCTM |
6.3.1 上下文感知的主题模型 |
6.3.2 联合概率分布模型 |
6.3.3 Gibbs采样过程 |
6.3.4 参数估计 |
6.3.5 群组活动推荐 |
6.4 满足差分隐私保护的DP-SCTM |
6.4.1 隐私预算ε分配 |
6.4.2 DP-Gibbs采样 |
6.4.3 用户画像的差分隐私保护 |
6.4.4 推荐列表的差分隐私保护 |
6.4.5 算法可用性分析 |
6.5 实验与分析 |
6.5.1 实验数据集 |
6.5.2 实验设置 |
6.5.3 实验结果与分析 |
6.6 本章小结 |
第七章 结束语 |
7.1 工作总结 |
7.2 未来展望 |
参考文献 |
致谢 |
攻读博士学位期间发表的科研成果 |
(2)基于Web日志的并行化聚类算法研究及应用(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 国内研究现状 |
1.2.2 国外研究现状 |
1.3 论文内容和结构 |
1.3.1 研究内容 |
1.3.2 组织结构 |
2 Web日志挖掘相关理论与方法 |
2.1 Web日志挖掘 |
2.1.1 Web日志挖掘概述 |
2.1.2 Web日志数据说明 |
2.2 数据预处理 |
2.3 聚类分析 |
2.3.1 概述 |
2.3.2 聚类方法分类 |
2.3.3 K-Means聚类算法 |
2.4 Hadoop分布式技术 |
2.4.1 Hadoop简介 |
2.4.2 HDFS文件系统 |
2.4.3 MapReduce计算框架 |
2.5 本章小结 |
3 Web日志数据预处理 |
3.1 Web日志的数据清洗 |
3.2 多条件约束的用户识别 |
3.3 设置STT值识别用户会话 |
3.4 有效事务识别 |
3.4.1 问题的提出 |
3.4.2 改进的有效事务识别 |
3.5 实验分析 |
3.6 本章小结 |
4 算法研究与实验 |
4.1 Web日志聚类数据表示 |
4.1.1 用户事务兴趣度量矩阵 |
4.1.2 相似性度量 |
4.1.3 用户事务相似性度量 |
4.2 改进的聚类算法 |
4.2.1 问题的提出 |
4.2.2 Canopy+K-Means聚类算法 |
4.2.3 改进Canopy+K-Means聚类算法 |
4.2.4 聚类初始中心的选择实验 |
4.2.5 聚类准确性实验 |
4.3 并行化的聚类算法 |
4.4 算法实际应用实验分析 |
4.5 本章小结 |
5 系统设计与实现 |
5.1 总体设计 |
5.1.1 系统总体框架 |
5.1.2 模块结构设计 |
5.2 系统设计 |
5.2.1 日志数据存储 |
5.2.2 数据预处理 |
5.2.3 聚类分析 |
5.2.4 聚类结果分析 |
5.3 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
作者简介及读研期间主要科研成果 |
(3)大数据背景下基于Web日志的用户访问模式挖掘研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
第一节 选题背景及研究意义 |
第二节 国内外相关研究动态 |
一、Web日志挖掘的研究现状 |
二、大数据背景下数据挖掘研究现状 |
三、个性化推荐的研究现状 |
四、研究中存在的一些缺陷和不足之处 |
第三节 论文的研究内容 |
第四节 论文结构安排 |
第二章 相关理论与技术研究 |
第一节 Web用户行为理论 |
一、Web用户行为概念与特征 |
二、Web用户行为的分类 |
第二节 Web日志挖掘 |
第三节 相关算法研究 |
一、聚类 |
二、分类 |
三、序列挖掘 |
四、推荐算法 |
第四节 大数据处理框架Hadoop |
一、Hadoop体系结构 |
二、MapReduce计算框架 |
三、HDFS分布式文件存储 |
第五节 Hadoop平台日志数据处理优势 |
第六节 本章小结 |
第三章 数据处理及用户行为识别 |
第一节 数据源介绍 |
第二节 数据预处理 |
一、数据清洗 |
二、数据衍生 |
第三节 用户行为识别 |
一、用户及会话识别 |
二、事务识别 |
三、模块标记识别 |
第四节 本章小结 |
第四章 基于大数据平台的数据挖掘算法改进 |
第一节 大数据背景下算法并行化的必要性 |
第二节 基于改进的PrefixSpan的并行模式挖掘算法 |
一、介绍及定义 |
二、PrefixSpan算法描述 |
三、PrefixSpan算法优化 |
四、实验结果及分析 |
第三节 基于样本密度的的FCM模糊聚类算法 |
一、FCM介绍 |
二、基于样本密度的FCM聚类算法 |
三、并行化处理 |
四、算法实验 |
第四节 本章小结 |
第五章 基于标签共享的用户兴趣模型迁移推荐 |
第一节 传统协同过滤推荐及面临问题 |
第二节 迁移学习与跨域 |
第三节 基于标签共享的用户兴趣模型迁移推荐 |
第四节 模型算法 |
一、矩阵奇异值分解算法 |
二、皮尔逊(Pearson)相关系数 |
三、Xgboost集成分类 |
第五节 实验数据及预处理 |
第六节 实验设计 |
一、用户兴趣度模型构建 |
二、迁移源领域兴趣度模型至目标领域 |
三、实验评测及结果 |
第七节 本章小结 |
第六章 Web用户访问模式挖掘系统 |
第一节 需求分析 |
第二节 用户访问模式挖掘系统原型设计与实现 |
一、用户访问兴趣分类 |
二、用户访问习惯挖掘 |
三、站点访问分析 |
四、用户综合推荐 |
第三节 本章小结 |
第七章 总结与展望 |
第一节 总结 |
第二节 展望 |
参考文献 |
致谢 |
在读期间的研究成果 |
(4)融入Web数据挖掘的校企人才对接平台的研究和实现(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 Web数据挖掘 |
1.2.2 关键词提取 |
1.3 论文主要研究内容 |
1.4 论文章节安排 |
1.5 本章小结 |
第2章 相关理论介绍 |
2.1 Web数据挖掘 |
2.1.1 Web数据挖掘定义 |
2.1.2 Web挖掘分类 |
2.1.3 Web数据挖掘的目的 |
2.2 超图概述 |
2.3 Spring Boot+Mybatis+Vue.js全栈技术 |
2.3.1 Spring Boot、Mybatis、Vue.js简介 |
2.3.2 Spring Boot+Mybatis+Vue.js全栈技术简介 |
2.4 本章小结 |
第3章 基于超图的岗位信息关键词提取算法 |
3.1 引言 |
3.2 关键词提取流程 |
3.3 数据预处理 |
3.3.1 数据清洗 |
3.3.2 词性标注 |
3.4 候选词集的初筛 |
3.4.1 单字筛除 |
3.4.2 停用词筛除 |
3.5 TextRank算法 |
3.6 基于超图的岗位信息提取关键词提取算法 |
3.6.1 构造超图 |
3.6.2 顶点权重计算 |
3.6.3 超边权重计算 |
3.6.4 随机游走 |
3.7 实验与分析 |
3.7.1 实验环境 |
3.7.2 实验结果与分析 |
3.8 本章小结 |
第4章 基于改进的AprioriAll用户偏好路径挖掘算法 |
4.1 引言 |
4.2 日志数据格式说明 |
4.3 数据预处理 |
4.3.1 数据清洗 |
4.3.2 常规预处理 |
4.4 改进的数据挖掘算法 |
4.5 基于改进的AprioriAll用户频繁路径挖掘流程 |
4.6 实验与分析 |
4.6.1 实验数据与实验环境 |
4.6.2 实验方法 |
4.6.3 实验结果与分析 |
4.7 本章小结 |
第5章 系统设计与实现 |
5.1 系统总体设计 |
5.2 系统功能概述 |
5.3 系统架构设计概述 |
5.4 基于超图的岗位信息关键词提取模块实现 |
5.4.1 岗位信息数据库设计 |
5.4.2 数据预处理模块实现 |
5.4.3 算法实现模块 |
5.5 Web日志挖掘子模块实现 |
5.5.1 数据预处理模块的实现 |
5.5.2 Web日志挖掘实现模块 |
5.6 业务系统实现和测试 |
5.6.1 业务系统实现举例 |
5.6.2 业务系统软件测试 |
5.7 本章小结 |
第6章 总结和展望 |
6.1 课题主要成果总结 |
6.2 后续工作与展望 |
参考文献 |
致谢 |
在学期间发表的学术论文与研究成果 |
(5)基于数据挖掘的校园网用户行为分析系统的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题背景 |
1.2 课题研究意义 |
1.3 国内外研究成果 |
1.4 课题主要研究内容 |
1.5 论文组织结构 |
第二章 相关概念介绍 |
2.1 用户行为分析概述 |
2.1.1 网络用户的概念 |
2.1.2 用户行为分析的概念 |
2.2 数据挖掘概述 |
2.2.1 数据挖掘的概念 |
2.2.2 数据挖掘的常用方法 |
2.2.3 数据挖掘的一般过程 |
2.3 本章小结 |
第三章 系统需求分析 |
3.1 需求分析概述 |
3.2 功能需求分析 |
3.3 非功能需求分析 |
3.4 本章小结 |
第四章 系统设计 |
4.1 系统框架设计 |
4.1.1 分析部分 |
4.1.2 应用部分 |
4.2 系统模块设计 |
4.2.1 数据节理模块 |
4.2.2 访问目标分析模块 |
4.2.3 访问习惯分析模块 |
4.3 数据库设计 |
4.4 挖掘流程设计 |
4.5 本章小结 |
第五章 算法设计与改进 |
5.1 数据获取 |
5.2 数据预处理 |
5.2.1 数据清理 |
5.2.2 数据归并 |
5.2.3 数据标准化 |
5.2.4 处理效果评价 |
5.3 访问目标分析的实现 |
5.3.1 聚类算法分析 |
5.3.2 K-均值算法实现 |
5.3.3 K-中心点算法实现 |
5.3.4 结合凝聚方法的聚类算法实现 |
5.4 访问习惯分析的实现 |
5.4.1 关联规则挖掘算法分析 |
5.4.2 Apriori算法实现 |
5.5 本章小结 |
第六章 系统运行测试与结果分析 |
6.1 系统运行环境 |
6.1.1 硬件环境 |
6.1.2 软件环境 |
6.2 系统运行情况 |
6.2.1 数据导入 |
6.2.2 数据接口 |
6.2.3 数据预处理 |
6.2.4 聚类分析 |
6.2.5 关联分析 |
6.3 系统挖掘结果分析 |
6.3.1 网络数据统计分析 |
6.3.2 用户行为聚类分析 |
6.3.3 川户行为关联分析 |
6.4 用户行为分析结论应用 |
6.4.1 校园网公网访问现状 |
6.4.2 公网出口优化方案 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
致谢 |
攻读学位期间参加的科研项目和成果 |
(6)基于Web日志的用户行为分析系统的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及研究意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 本文研究内容及结构 |
1.3.1 研究内容 |
1.3.2 论文结构 |
1.4 本章小结 |
第二章 相关理论及技术 |
2.1 用户行为分析 |
2.2 数据挖掘 |
2.3 Web数据挖掘 |
2.3.1 Web挖掘定义 |
2.3.2 Web挖掘分类 |
2.4 相关算法 |
2.4.1 最大前向引用算法(MFR) |
2.4.2 Apriori算法 |
2.4.3 AprioriAll序列模式挖掘算法 |
2.5 本章小结 |
第三章 系统总体设计 |
3.1 设计目标 |
3.2 系统功能概述 |
3.3 系统总体设计 |
3.4 网络结构 |
3.5 数据库设计 |
3.6 本章小结 |
第四章 用户行为分析算法的研究 |
4.1 引言 |
4.2 数据来源及格式说明 |
4.3 数据预处理 |
4.3.1 数据净化 |
4.3.2 用户识别 |
4.3.3 会话识别 |
4.3.4 路径补充 |
4.3.5 事务识别 |
4.4 数据挖掘算法 |
4.4.1 改进的AprioriAll算法 |
4.4.2 基于用户浏览路径和用户浏览兴趣的用户聚类算法 |
4.5 算法流程 |
4.5.1 序列模式挖掘 |
4.5.2 用户聚类 |
4.6 本章小结 |
第五章 用户行为分析系统的实现 |
5.1 系统总体实现 |
5.2 数据预处理模块的实现 |
5.2.1 数据净化 |
5.2.2 用户识别 |
5.2.3 会话识别 |
5.2.4 路径补充和事务识别 |
5.3 序列模式挖掘实现 |
5.4 用户聚类实现 |
5.4.1 基于浏览路径相似度的聚类算法实现 |
5.4.2 基于浏览兴趣的聚类算法实现 |
5.5 本章小结 |
第六章 系统测试 |
6.1 测试环境 |
6.2 测试方法 |
6.3 实验结果 |
6.3.1 序列模式挖掘 |
6.3.2 用户聚类 |
6.4 实验结果分析与讨论 |
6.4.1 序列模式 |
6.4.2 用户聚类 |
6.5 本章小结 |
总结与展望 |
工作总结 |
工作展望 |
参考文献 |
致谢 |
攻读博士/硕士学位期间取得的研究成果 |
答辩委员会对论文的评定意见 |
(7)基于聚类划分的关联规则在Web日志挖掘中的应用研究(论文提纲范文)
摘要 |
ABSTRACT |
目录 |
第1章 绪论 |
1.1 课题背景及意义 |
1.2 国内外研究现状 |
1.3 论文主要内容和结构 |
第2章 Web 挖掘与 Web 日志挖掘 |
2.1 数据挖掘与 Web 挖掘 |
2.2 Web 挖掘的概述 |
2.3 Web 日志挖掘的关键元素 |
2.3.1 Web 日志的来源 |
2.3.2 Web 日志的类型 |
2.3.3 Web 日志挖掘的关键过程 |
2.3.4 Web 日志挖掘的关键应用 |
2.4 本章小结 |
第3章 数据预处理与数据建模 |
3.1 数据的获取及预处理概述 |
3.2 Web 日志的不确定性 |
3.3 Web 日志的预处理 |
3.3.1 数据清洗 |
3.3.2 用户识别 |
3.3.3 会话识别 |
3.3.4 路径补充 |
3.3.5 事务识别 |
3.4 Web 日志数据建模基础 |
3.5 Web 日志数据建模的关键元素 |
3.5.1 Web 页面权重 |
3.5.2 Web 隐式语义 |
3.6 日志数据仓库的多维建模 |
3.7 本章小结 |
第4章 Web 日志挖掘算法的研究及改进 |
4.1 Web 日志挖掘算法概述 |
4.2 关联规则和 Apriori 算法的改进 |
4.2.1 关联规则的基本概念 |
4.2.2 Apriori 算法的思想及伪码实现 |
4.2.3 Apriori 算法的分析及改进 |
4.3 聚类分析和 K-means 算法的改进 |
4.3.1 聚类分析的基本概念 |
4.3.2 聚类分析方法的主要分类 |
4.3.3 K-means 算法的思想及伪码实现 |
4.3.4 K-means 算法的分析及改进 |
4.4 K-means 和 Apriori 算法在日志挖掘中的性能评价 |
4.5 基于 K-means 聚类的 Apriori 算法 |
4.6 本章小结 |
第5章 改进算法的仿真实验及结果分析 |
5.1 实验目的 |
5.2 实验环境 |
5.2.1 实验平台 |
5.2.2 实验数据集来源及特征 |
5.3 实验过程及结果分析 |
5.3.1 数据准备阶段 |
5.3.2 算法挖掘阶段 |
5.3.3 实验结果分析 |
5.4 本章小结 |
第6章 基于 Web 日志挖掘的原型系统设计 |
6.1 系统总体设计 |
6.1.1 可视化插件服务 |
6.1.2 离线分析服务 |
6.1.3 在线推荐服务 |
6.2 功能模块详细设计及过程分析 |
6.2.1 日志数据采集模块 |
6.2.2 日志预处理模块 |
6.2.3 日志挖掘模块 |
6.2.4 在线推荐服务模块 |
6.3 系统应用场景 |
6.4 本章小结 |
第7章 总结与展望 |
7.1 总结 |
7.2 展望 |
致谢 |
参考文献 |
(8)基于Web日志挖掘的用户访问兴趣研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 Web 挖掘研究的背景与意义 |
1.2 Web 数据挖掘与聚类算法的研究现状 |
1.2.1 Web 挖掘研究现状 |
1.2.2 聚类分析的研究现状 |
1.2.3 基于粒子群的聚类算法研究现状 |
1.3 本文主要工作 |
1.4 本文的组织结构 |
第2章 Web 日志挖掘中用户聚类算法研究 |
2.1 基于聚类的 Web 日志挖掘 |
2.2 几种聚类算法比较 |
2.2.1 划分聚类 |
2.2.2 基于模型的聚类 |
2.2.3 基于群智能的聚类算法 |
2.2.4 算法的比较和分析 |
2.3 基于粒子群优化算法的聚类分析 |
2.3.1 标准粒子群优化算法 |
2.3.2 基于粒子群优化的聚类算法 |
2.3.3 PSO 和 K-means 结合的混合聚类算法 |
2.4 问题提出 |
2.5 算法改进策略 |
2.6 本章小结 |
第3章 用户兴趣挖掘算法的改进 |
3.1 基于用户聚类的 PSO-KM 算法的改进 |
3.1.1 算法改进思想 |
3.1.2 算法改进操作方案 |
3.1.3 改进算法描述 |
3.2 聚类评价指标 |
3.3 算法仿真实验与分析 |
3.3.1 仿真实验一 |
3.3.2 仿真实验二 |
3.4 本章小结 |
第4章 改进的算法在用户访问兴趣挖掘中的应用 |
4.1 Web 日志挖掘过程 |
4.1.1 日志挖掘步骤 |
4.1.2 日志预处理一般过程 |
4.1.3 Web 日志来源 |
4.1.4 Web 日志格式分析 |
4.2 启发式分层挖掘方案 |
4.3 数据准备及预处理 |
4.3.1 数据预处理 |
4.3.2 特征选取及规范化 |
4.4 改进的 PSO-KM 算法应用于 Web 日志实验 |
4.4.1 聚类个数的估计 |
4.4.2 改进的聚类算法运行结果 |
4.5 用户兴趣挖掘结果分析 |
4.6 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
致谢 |
参考文献 |
(9)招生信息网的Web日志挖掘技术研究(论文提纲范文)
摘要 |
Abstract |
目录 |
第一章 绪论 |
1.1 背景 |
1.2 Web数据挖掘在国内外的研究现状 |
1.3 论文主要研究工作 |
1.4 论文的组织形式 |
第二章 Web日志挖掘研究概述 |
2.1 Web数据挖掘简述 |
2.1.1 Web数据挖掘的概念和分类 |
2.1.2 Web数据挖掘的基本流程 |
2.1.3 Web数据挖掘的意义 |
2.2 Web日志的形成 |
2.3 Web日志挖掘流程 |
2.4 Web日志挖掘的分类和应用 |
2.4.1 Web日志挖掘的分类 |
2.4.2 Web日志挖掘的典型应用 |
2.5 Web日志挖掘的方法 |
2.6 Web日志挖掘的难点 |
2.7 本章小结 |
第三章 招生信息网的Web日志预处理 |
3.1 招生信息网站点结构说明 |
3.2 Web日志数据的结构分析 |
3.2.1 日志格式类型 |
3.2.2 常见日志格式的组成 |
3.3 Web日志的数据预处理流程 |
3.3.1 数据清理 |
3.3.2 用户识别 |
3.3.3 会话识别 |
3.3.4 路径补充 |
3.3.5 事务识别 |
3.4 招生信息网的Web日志预处理 |
3.4.1 招生信息网Web日志的数据清理 |
3.4.2 招生信息网Web日志的用户识别 |
3.4.3 招生信息网Web日志的会话识别 |
3.4.4 招生信息网Web日志的路径补充 |
3.4.5 招生信息网Web日志的事务识别 |
3.5 本章小结 |
第四章 招生信息网的Web日志挖掘 |
4.1 招生信息网的用户浏览模式挖掘 |
4.1.1 用户浏览模式挖掘的目的 |
4.1.2 关联规则挖掘主要思想 |
4.1.3 关联规则挖掘的基本概念 |
4.1.4 关联规则挖掘的方法 |
4.1.5 招生信息网的关联规则挖掘 |
4.1.6 实验与分析 |
4.2 招生信息网的用户聚类挖掘 |
4.2.1 用户聚类挖掘的研究目的 |
4.2.2 聚类分析概述 |
4.2.3 k-均值聚类算法基本思想 |
4.2.4 k-均值算法应用与分析 |
4.2.5 招生信息网的用户聚类挖掘 |
4.3 招生信息网使用情况分析 |
4.3.1 招生信息网站点页面点击率分析 |
4.3.2 招生专业的关注度分析 |
4.3.3 招生信息网流量分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 论文总结 |
5.2 进一步的工作 |
参考文献 |
作者攻读硕士学位期间发表的学术论文 |
致谢 |
作者简介 |
(10)基于用户浏览兴趣的Web日志聚类研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究目的和意义 |
1.2 国内外研究现状 |
1.3 主要研究内容 |
1.4 论文结构 |
第2章 Web挖掘 |
2.1 Web挖掘的概念 |
2.2 Web挖掘的分类 |
2.3 Web日志挖掘 |
2.3.1 Web日志简介 |
2.3.2 Web日志挖掘的定义 |
2.3.3 Web日志挖掘的步骤 |
2.3.4 Web日志挖掘的前景 |
2.4 本章小结 |
第3章 聚类 |
3.1 聚类的定义及应用 |
3.2 聚类方法的数据类型 |
3.3 聚类方法的分类 |
3.4 聚类方法的比较 |
3.5 本章小结 |
第4章 基于用户浏览兴趣的Web日志聚类 |
4.1 基于用户浏览兴趣的Web日志聚类的步骤及实现流程 |
4.1.1 WEB日志聚类的步骤 |
4.1.2 基于用户浏览兴趣的Web日志聚类的流程 |
4.2 基于用户浏览兴趣的相似度计算 |
4.2.1 用户特征表示 |
4.2.2 用户相似度计算 |
4.3 用户聚类 |
4.3.1 变色龙聚类算法(Chameleon算法) |
4.3.2 基于用户浏览兴趣的变色龙算法 |
4.4 本章小结 |
第5章 实验及分析 |
5.1 实验目的 |
5.2 实验环境 |
5.3 实验数据 |
5.4 实验过程 |
5.4.1 数据清洗 |
5.4.2 用户识别和会话识别 |
5.4.3 路径补充和事务识别 |
5.4.4 排除孤立点 |
5.4.5 计算用户相识度 |
5.4.6 聚类 |
5.5 本章小结 |
第6章 结束语 |
6.1 总结 |
6.2 进一步的研究展望 |
参考文献 |
致谢 |
攻读硕士学位期间公开发表的论文 |
四、Web访问挖掘中事务聚类研究(论文参考文献)
- [1]移动互联网用户行为的隐私保护数据挖掘研究[D]. 于魁. 北京邮电大学, 2021(01)
- [2]基于Web日志的并行化聚类算法研究及应用[D]. 王颖. 安徽理工大学, 2020(07)
- [3]大数据背景下基于Web日志的用户访问模式挖掘研究[D]. 夏烈阳. 云南财经大学, 2019(01)
- [4]融入Web数据挖掘的校企人才对接平台的研究和实现[D]. 简圣光. 华侨大学, 2019(01)
- [5]基于数据挖掘的校园网用户行为分析系统的设计与实现[D]. 郁恩月. 浙江工业大学, 2018(02)
- [6]基于Web日志的用户行为分析系统的研究与实现[D]. 江惠彬. 华南理工大学, 2015(01)
- [7]基于聚类划分的关联规则在Web日志挖掘中的应用研究[D]. 石敏. 武汉理工大学, 2014(04)
- [8]基于Web日志挖掘的用户访问兴趣研究[D]. 赵晶晶. 武汉理工大学, 2014(04)
- [9]招生信息网的Web日志挖掘技术研究[D]. 赵培鸿. 华北电力大学, 2013(02)
- [10]基于用户浏览兴趣的Web日志聚类研究[D]. 荣臻. 西南大学, 2013(12)