互聯網+時代的來臨,移動互聯網技術的快速發展,并且在各個領域中應用,為其他行業的發展提供了技術支持。隨時隨地發布新聞、了解咨詢、關注國計民生以及發表個人觀點和看法成為新常態。 輿情的發生、發展、演化及傳播等特點發生著翻天覆地的變化,與之相應的輿情監測、分析和決策方法日益成為公司部門關注的焦點。利用信息技術、輿情監測等方面理念、理論及方法對網絡輿情的演化發展進行了大量研究,提出面向大數據的網絡輿情監測:發現輿情主題,分析情感傾向,設計主題,傳播趨勢;采用數據挖掘技術在事前、事中和事后分三個階段對輿情進行分析,對其風險進行評價,預測其發展趨勢,及時提出預警。 由此可見,時代在進步,技術在發展, 工作模式、工作方法的革新勢在必行。過去在網絡輿情處置中采用過“遮、掩、封、堵、刪”等極端手段,隨著“大數據+移動互聯網”的蓬勃發展,這些方法和手段往往會使問題復雜化,增加問題的神秘感,激發民眾的好奇心,給敵對勢力以大肆渲染和炒作的借口。不如敞開胸懷,正視問題,走入民眾,主動發聲,參與互動, 利用大數據,依靠新技術,“治理+智理”,在解決問題過程中不斷提升解決問題的能力。 提出面向大數據的輿情監測、分析和決策新理念,新方法。按照圖1的邏輯流圖展開,面向大數據,分數據流和控制流兩方面。以數據流將輿情的處理分為三個部分,輿情監測,輿情分析和輿情決策。 網絡輿情監測的數據是決策者進行數據分析和決策處置的基礎。依靠新興信息技術多角度廣泛采集輿情數據,建立和完善輿情數據庫、知識庫和案例庫。 輿情監測的總體思路由事件驅動向數據驅動轉變。 有輿情事件發生,針對事件監測輿情的演化,從中發現潛在的輿情風險和工作中的不足。按照圖2所示流程展開監測。 涉警輿情數據主要來自三個方面: (1)內部輿情集散地:官方微博、微信公眾號、門戶網站及政務網等。 (2)外部輿情集散地:微信、微博、論壇、 貼吧以及新聞媒體等網站。 (3)自媒體發言人:頭條號、百家號、微信公眾號等自媒體號。 輿情監測分兩個方法: 被動輿情監測:事件已發生,根據輿情動態,監測詞,通過輿情監測系統對輿情集散地,發現熱點,提取主題,分析情感傾向。 主動輿情監測:事件未發生,設計并拋出輿情主題,引發討論,將被動化為主動。 網絡輿情數據多為非結構性的多元異構數據。輿情監測的步驟為數據采集→數據預處理→數據存儲。信息檢索和分析要求建立關鍵詞倒排索引;文本處理需要進行切分詞處理,建立詞庫;語義分析要求建立語義語料庫,詞性標注庫;情感傾向性分析需要建立情感詞庫等。而案例數據庫是進行輿情分析和決策的基礎; 通過知識挖掘建立的知識庫,輿情分析方法庫和輿情決策方法庫是輿情智能決策的基礎。 將抓來的網頁進行粗略處理或者不處理直接保存在本地,用非關系型數據庫進行管理,如NoSQL數據庫 HBbase,采用的文件系統隨之需改為分布式文件系統, 如HDFS。數據存儲模式的改變,導致數據處理手段和方法隨之改變,大數據對數據處理分析的擴展性、可靠性及時性要求不斷提高,需采用各種先進的大數據處理技 術。考慮到采集平臺的存儲計算能力、可擴展性以及后期維護的方便性,可采用當前流行的開源分布式采集、 存儲、計算和處理框架,如建設基于Hadoop的分布式計算平臺,可管理不同類型的數據,包括分布式文件系 統HDFS、并行編程框架MapReduce、內存流式計算引擎 Spark、大數據引擎Pig等。 針對事前、事中及事后的網絡輿情大數據,其分析流程為:統計、計數→聚類、分類→學習、識別→回歸、預測。輿情大數據分析需結合統計方法、機器學習方法以及人工智能算法進行數據挖掘和知識發現,給出各個階段的輿情風險評價,提供互動查詢、圖表可視化和分析報表服務,為決策提供參考,具體流程可參考圖3。 (一)中文分詞和詞頻統計 輿情分析的核心是自然語言處理,主體是文本數據挖掘,中文分詞統計是網絡輿情大數據分析的基礎,是熱點發現,建立倒排索引的關鍵技術,比如可以對同一時段輿情主題進行分詞統計,當前熱點便一目了然。對同一主題一個時段內的關注量進行統計可以發現本主題的熱度變化。以“雅思”為關鍵詞進行搜索,2019年1 月22日—2月14日為監測時段,時段內出現了一個大的熱度波動。繼續統計與之相關度高的搜索詞頻如圖。 進一步了解熱詞相關度,反映了雅思及其相關關鍵詞之間的緊密程度,關鍵詞“報名”“雅思報名官網”“官網”反映出網民時段內對學習雅思、報名等參與較多。 除了數字顯示外還可以將詞頻以詞云的形式更為直觀地顯示,根據1data監測系統,利用pagerank改編的算法,繪制的有關“雅思”的詞云。 詞云以不同大小和形狀非常直觀地顯示關鍵詞的詞頻,給人以強烈的視覺沖擊。 (二)情感傾向性分析 首先對抓取的輿情數據進行分詞處理,然后結合情感語料數據庫和情感分析算法對切分后的語料進行情感計算、分析,并進行情感標注。通過聚類和分類得出個體情感傾向和群體情感傾向,以便進一步發現個體情感異常和群體情感異動,以便及時采取措施,疏導負面輿情。根據1data監測系統,利用情感深度學習模式,繪制的有關“雅思”的情感分布圖如下 (三)輿情風險評價 對網絡信息發布者進行用戶畫像,包括年齡、性別、地域、使用終端等信息,用戶畫像便于對高輿情風險人群進行動態跟蹤監視;建立風險評價指標體系、風險評價模型,根據動態輿情數據,對事前輿情隱患風險、事中輿情惡化風險以及事后輿情衍生風險進行評價,并適時給出輿情風險預警。 (四)趨勢分析預測 通過對采集到的時序網絡輿情數據運用線性回歸分析、決策樹回歸分析、隱馬爾可夫預測、深度學習等方法進行回歸預測分析,可給出網絡輿情的演變趨勢,為風險預警和處置決策提供參考。 (五)大數據分析工具 EXCEL內置的財務統計函數可以做一些統計分析, 如計數、相關性分析、線性回歸等,如果能靈活應用 VBA可以大大擴充Excel的統計分析功能;SPSS、SAS是專業的統計分析、數據挖掘工具,功能強大,接口豐富, 編程簡單,但成本高昂,不便集成到網絡輿情系統中; Matlab是通用的數學數值計算、模擬仿真軟件,其統計 分析、機器學習及人工智能方面有很豐富的函數支持, 而且可視化效果也很好,是算法研究的有力工具;R語言是專業的開源大數據統計分析工具,有非常豐富的數據挖掘包,而且方便與第三方函數庫和算法庫集成,可視化也是其一大優勢,是網絡輿情大數據分析的首選工具;Python作為一門膠水式的開源編程語言,近年來以其編程簡單、功能強大受到各行業青睞,其有很強大的數據挖掘、機器學習和人工智能工具包,而且升級速度很快,是網絡輿情大數據分析的理想選擇。 (一)輿情專家決策 一是充分利用大數據技術和人工智能技術,做好對重點網站、重點人群的輿情監測,及時發現問題,評價風險,提出預警。同時,積極參與到各焦點話題的討論中,發帖子、發微博、發微信、寫文章、寫段子,引導輿論導向,為網絡注入正能量;二是充分利用移動互聯網平臺,進行網絡民意調研,改變過去走街串巷式的、專門問卷式的調研,學會從網民對各類事件、各種話題所發表的圖、文、聲、像等多媒體意見的分析中挖掘提煉對觀點、情感和態度。 (二)輿情智能決策 海量異構輿情數據為輿情智能決策的知識挖掘提供了豐富的資源,以機器學習技術為核心的輿情智能決策是未來工作的重要發展趨勢。網絡輿情智能決策的邏輯框圖如下,是決策支持系統和專家系統的合體,建設各種各樣的知識庫是智能決策的基礎,各類機器學習方法是智能決策的主要手段。 網絡輿情智能決策支持系統結構框圖 建立知識庫,采用搜索引擎技術建立理論、政策及相關法律智能咨詢系統,提供便民服務。按照預設,到指定輿情集散地、重點人物微博、微信采集多媒體數據,識別輿情主題,分析情感傾向,建立主題識別知識庫、情感識別知識庫、決策模型庫,決策知識庫,最終實現政策解讀專家系統,機器人聊天交流系統,決策建議推送系統。其中決策建議推送可以結合微信公眾號、以及電子郵件等多種方式展開。一、大數據輿情背景
二、面向大數據的輿情監測
三、面向大數據的輿情分析
四、面向大數據的輿情決策