基于技术的新闻信息聚类与热点研究(2) - 新闻大学杂志社投稿_期刊论文发表|版面费|电话|编辑部|论文发表- 新闻大学

一、本刊要求作者有严谨的学风和朴实的文风，提倡互相尊重和自由讨论。凡采用他人学说，必须加注说明。二、不要超过10000字为宜，精粹的短篇，尤为欢迎。三、请作者将稿件（用WORD格式）发送到下面给出的征文信箱中。四、凡来稿请作者自留底稿，恕不退稿。五、为规范排版，请作者在上传修改稿时严格按以下要求： 1．论文要求有题名、摘要、关键词、作者姓名、作者工作单位（名称，省市邮编）等内容一份。 2．基金项目和作者简介按下列格式：基金项目：项目名称（编号）作者简介：姓名（出生年－），性别，民族（汉族可省略），籍贯，职称，学位，研究方向。 3．文章一般有引言部分和正文部分，正文部分用阿拉伯数字分级编号法，一般用两级。插图下方应注明图序和图名。表格应采用三线表，表格上方应注明表序和表名。 4．参考文献列出的一般应限于作者直接阅读过的、最主要的、发表在正式出版物上的文献。其他相关注释可用脚注在当页标注。参考文献的著录应执行国家标准GB7714-87的规定，采用顺序编码制。

基于技术的新闻信息聚类与热点研究(2)

作者:

关键词:

摘要：

式中，是词条ti在d中出现频率的函数，ni是含有词条ti的文档数目，N是所有文档的数目。文档中词条ti出现的频率越高，则文档对内容属性的区分能力越强，其权值也越大。

文档di与文档dj的相似度计算公式为：

根据文档间相似度，再利用K-Means聚类算法对数据进行数据聚类分析。有数据集D，从D中任意选择k个点作为初始聚类中心，记为Ci(i=1,2,...,k)，聚类算法步骤如下所示：

对剩余的每个样本xi，分别对每个样本与聚类中心的相似性进行计算，计算公为Li(Xi,Ci)=||Xi-Ci||。若通过计算公式得到的结果越小则表明两者间的相似性越强，这样把样本划分入与之相似性最强的聚类里。再次聚对类中的样本相似度利用公式进行计算，并求出其平均值，其中N代i表第i类含有样本的数量。

反复进行步骤(1)中的操作过程，当准则函数趋于稳定之后停止聚类算法的迭代[4]。

3.4 新闻热点提取

（1）新闻话题热度值计算

在获得各领域新闻信息聚类后，需要对各个新闻聚类的热度值进行计算，本系统按照话题相关报道数量、话题相关报道集中度和话题相关报道来源数量三个维度来计算新闻资讯的热度值，计算公式为：式中，n与m分别表示与话题C相关的报道与来源的数量；Ta与Tb分别表示与话题C相关的最终报道与首次报道的时间；N与M分别代表在特定期限Ta至Tb内获得到的所有报道与来源的数量[5]。

（2）热点话题标题抽取

热点话题词指能较大程度地代表本条新闻的词语，是能够反映出新闻报道所阐述的主题。因此，热点话题词语的提取不仅仅要考虑词频、文档频率以及词共现等方法，还要从语义方面对词的权重进行考量，热点话题词提取计算公式如下：式中，dv表示在新闻d中不同的词汇合集，对处于新闻聚类内的每一条新闻按照上述计算公式提取出关键词后统计词频，生成前m个关键词即可作为该新闻聚类的热点话题[5]。

4 结束语

综上所述，本文通过Scrapy网络爬虫技术抓取海量新闻稿件并进行预处理操作后，利用基于Spark系统架构和K-Means聚类算法对所抓取的各个领域的新闻热点进行分析与追踪，并对每一类新闻资讯进行实时分析。最终能够使用户自主选择关注不同领域的热点话题，并有效提升了新闻热点挖掘与追踪的性能。

[1]CNNIC.第41次中国互联网络发展状况统计报告[R].北京:中国互联网信息中心,2018.

[2]肖剑楠,刘梦尘,刘世霞.新闻数据可视分析系统[J].计算机辅助设计与图形学学报,2016,28(11):1863-1870.

[3]万晓霞,赵佳.基于聚类的网络新闻热点发现研究[J].现代计算机,2015(26):36-39.

[4]武永亮,赵书良,李长镜,等.基于TF-IDF和余弦相似度的文本分类方法[J].中文信息学报,2017,31(5):138-145.

[5]李洪利,王箭.基于用户关联的热点话题检测方法[J].计算机与现代,2015(4):20-25.

文章来源：《新闻大学》网址: http://www.xwdxzz.cn/qikandaodu/2021/0430/1398.html