投稿指南
一、本刊要求作者有严谨的学风和朴实的文风,提倡互相尊重和自由讨论。凡采用他人学说,必须加注说明。 二、不要超过10000字为宜,精粹的短篇,尤为欢迎。 三、请作者将稿件(用WORD格式)发送到下面给出的征文信箱中。 四、凡来稿请作者自留底稿,恕不退稿。 五、为规范排版,请作者在上传修改稿时严格按以下要求: 1.论文要求有题名、摘要、关键词、作者姓名、作者工作单位(名称,省市邮编)等内容一份。 2.基金项目和作者简介按下列格式: 基金项目:项目名称(编号) 作者简介:姓名(出生年-),性别,民族(汉族可省略),籍贯,职称,学位,研究方向。 3.文章一般有引言部分和正文部分,正文部分用阿拉伯数字分级编号法,一般用两级。插图下方应注明图序和图名。表格应采用三线表,表格上方应注明表序和表名。 4.参考文献列出的一般应限于作者直接阅读过的、最主要的、发表在正式出版物上的文献。其他相关注释可用脚注在当页标注。参考文献的著录应执行国家标准GB7714-87的规定,采用顺序编码制。

基于改进的算法的新闻聚类的研究

来源:新闻大学 【在线投稿】 栏目:期刊导读 时间:2021-04-30
作者:网站采编
关键词:
摘要:随着互联网的高速发展,人们已经迈向了一个信息化的时代,互联网上的信息交流和获取逐渐取代了传统的电视、报纸、书信等传统媒体。截至2019 年6 月,中国网民规模为8.54 亿人,互

随着互联网的高速发展,人们已经迈向了一个信息化的时代,互联网上的信息交流和获取逐渐取代了传统的电视、报纸、书信等传统媒体。截至2019 年6 月,中国网民规模为8.54 亿人,互联网普及率达61.2%,网站数量518万个。人们每天通过浏览器或者新闻APP看新闻产生大量点击记录,对人们点击的海量新闻进行分析,可以获知特定时间和特定范围内公众最关心的热门事件,进而可以在信息爆炸的互联网时代帮助人们更快、更好、更有效地获取有用的信息。如何快速、有效地在海量新闻浏览记录中发现其中的趋势和主题,不仅能够帮助个人更准确地了解全社会关注的热点事件,同时还能辅助国家及时发现网络舆情事件、趋势,在网络舆情分析、重大网络事件监测防御、信息网络安全等领域具有极其重要的现实意义。

聚类分析旨在分析数据过程中发现数据对象之间的相互关系,将数据依据一定原理进行分组,各分组结果内的相似性越大,各分组之间的差别就越大,聚类效果越好。k 均值(kmeans)聚类算法具有快速、简单的特点,对大数据集有较高的分析效率。

本文提出了一种结合k-means算法与分级聚类算法的方法,利用k-means算法对预处理过的新闻数据集进行多次聚类,然后用证据累积算法融合多次聚类得到的结果,减少波动。本文对搜狐新闻数据进行分析,考查本文方法的聚类效果,并与传统kmeans算法的聚类效果进行比较,体现本文方法的优势。

1 算法简介

1.1 k-means算法

k-means 算法采用迭代更新的思想,该算法的目标是根据输入的参数k将数据对象聚成k簇,其基本思想为:首先指定需要划分的簇的个数k 值,随机地选择k 个初始数据对象作为初始聚类或簇的中心;然后计算其余的各个数据对象到这k个初始聚类中心的距离,并把数据对象划分到距离它最近的那个中心所在的簇中,然后根据公式:

重新计算每个簇的中心作为下一次迭代的聚类中心。公式(1)中,Ci表示聚类所得簇C={C1,C2,...,Ck}中第i个簇[1]。

不断重复这个过程,直到达到规定的最大迭代次数或者聚类准则函数(误差平方和函数)收敛。收敛函数如下:

公式(2)中:E 为k-means 算法针对样本D={x1,x2,...,xk}聚类所得簇C={C1,C2,...,Ck}划分的最小化平方误差。通常E 值越小则簇内样本相似度越高[2]。

迭代使得选取的聚类中心越来越接近真实的簇中心,所以聚类效果越来越好,最后把所有对象划分为k个簇[3]。

1.2 k-means算法步骤

k-means算法步骤如下[4][5]:

输入:数据集D={x1,x2,x3,...,xn},k值。

输出:簇集C={C1,C2,...,Ck}。

(1)从数据集中随机选择k 个数据对象作为初始聚类中心C={C1,C2,...,Ck};

(2)Repeat

(3) 针对数据集中的每个样本xi,计算它到k个聚类中心的欧式距离,并将其分到距离最小的聚类中心所对应的簇中;

(4) 针对每个簇Ci,更新聚类中心(即计算该样本的质心), ||Ci为该类样本个数;

(5)Until聚类中心不再变化,聚类准则函数收敛。

1.3 k-means算法优缺点

k-means 算法是解决聚类问题的经典算法,这种算法简单快速。当结构集是密集的,簇与簇之间区别明显时,聚类的结果比较好。在处理大量数据时,该算法具有较高的可伸缩性和高效性。

但是,目前传统的k-means算法也存在着许多缺点[6,7]:

(1)k-means 聚类算法需要用户事先指定聚类的个数k值。在很多时候,在对数据集进行聚类的时候,用户起初并不清楚数据集应该分为多少类合适,对k值难以估计。

(2)对初始聚类中心敏感,选择不同的聚类中心会产生不同的聚类结果和不同的准确率。随机选取初始聚类中心的做法会导致算法的不稳定性,有可能陷入局部最优的情况。

1.4 分级聚类算法

分级聚类是一种自底向上的聚类方法。它的主要思想是:首先将每个样本自定义为一类,然后逐步合并,直到最后聚为一类或者达到要求为止[8,9]。

对于给定的n 个样本集合X={x1,x2,...,xn},分级聚类方法的具体步骤如下:

(1)X 中每个样本xi均自成一类ci,这样就构建了一个初始聚类C={c1,c2,...,cn};

(2)计算C中每对类(ci,cj)之间的相似度sim(ci,cj);

(3)选择最大相似度的类对Max(sim(ci,cj)),并将其合并为一个新类ck=ci?cj,构成一个新的聚类C={c1,c2,...,ck,...,cn-1};

(4)如果C 中只有一个类或C 已经达到要求,则结束;否则转到(2)。

文章来源:《新闻大学》 网址: http://www.xwdxzz.cn/qikandaodu/2021/0430/1399.html



上一篇:基于技术的新闻信息聚类与热点研究
下一篇:技术的媒体适应性分析

新闻大学投稿 | 新闻大学编辑部| 新闻大学版面费 | 新闻大学论文发表 | 新闻大学最新目录
Copyright © 2018 《新闻大学》杂志社 版权所有
投稿电话: 投稿邮箱: