行业新闻

实现舆情监测系统需要哪些技术?

1,舆情信息采集

在信息采集过程中,主要包括网络爬虫(We-bCrawler)和网页清洗(WebPageCleaning)等技术。

网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。

利用消息队列接收所述网络数据;对所述网络数据进行标准化清洗配置;基于所述标准化清洗配置对所述网络数据进行数据清洗。可选的,利用消息队列接收所述网络数据包括:接收对端设备发送的第一清洗指令,并利用消息队列接收所述第一清洗指令对应的网络数据;或,利用cron表达式向所述对端设备发送第二清洗指令,并利用消息队列接收所述对端设备对所述第二清洗指令的响应数据,所述响应数据包含所述网络数据。

2,舆情信息分类

将收集的舆情进行自动分类,是整理和发现舆情的关键步骤,主要运用到自然语言处理中的文本分类(TextCategorization)和文本聚类(TextClusters)等技术。

3,文本情感分析

文本情感分析(又称文本倾向性或意见挖掘(OpinionMining)),是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。文本情感分析是自然语言处理技术中新兴的研究课题,具有很大的研究价值和应用价值,一般来说,它分为三个主要研究任务:情感信息抽取、情感信息分类、情感信息的检索与归纳。

4,情识别预警

主要建设分析处理引擎,包括各个应用系统需要建设的业务处理部分,需要进行全面的考量和建设,设计出稳定的业务处理支撑层,并为最上端的应用层打下坚实的基础。话题识别与跟踪(TopicDetectionandTracking)是对网络舆情聚类分析后,通过算法找出热点问题,并通过算法跟踪话题发展过程,是网络舆情监测中的核心技术。

导航栏目

联系我们

联系人:谢蕊丽

手机:18991657686

电话:0913-2088666

邮箱:526385941@163.com

地址: 西安市高新区丈八街办与锦业路与丈八一路东北角旺都B栋16层06号02室

用手机扫描二维码关闭
二维码