Ⅰ. 介紹 現如今,人們越來越多地使用互聯網與他人進行溝通,發表他/她們的關于某些話題的看法和表達他/她們的關于某些事的怨言(我們把所有這些相關的話題和人們的觀點叫做網絡輿情,簡稱IPO)。互聯網可能會被攻擊者或敵人用作破壞互聯網穩定和威脅網絡社會安全的工具[1]。然而,網絡輿情可能會對真實世界的社會安全產生巨大的沖擊[2]。當前對網絡輿情的研究主要是研究它對真實世界的社會或政府的影響,并且從心理學或社會學的角度分析它的活動方式[3]。文本分類在大量的信息管理和檢索任務扮演一個根本角色。但是網頁分類比純文本分類困難在于網頁中存在著大量的嘈雜信息。網頁是不同于一般的的文本文檔集合。文本文檔可以被認為是一個詞語的匯集,而網頁則含有附加的結構信息。 在本文,我們設法顯示我們的網絡輿情分析系統(IPOAS)的模型。 我們的主要工作如下: 1)參考各種各樣的相關技術,我們提出一種改進的網絡語請分析模型,它可以更加有效地處理和探求網絡輿情的特征。 2)在這個系統中,有二個重要的核心模塊:信息預處理模塊和網絡輿情語義分析模塊。 我們分析了他們的實現方法。 3) 我們通過在摘要中應用網頁分類法來提取網頁中最為相關的內容,然后再將他們傳遞到標準文本分類算法(NB或SVM)中。根據實驗結果,我們證明了系統結構在系統設計中的重要性。 本文的其他部分結構如下。在第2部分,我們將回顧有關網絡輿情最新的工作成果和有關傳統網絡輿情分析方法的研究,然后將提出我們的IPOAS模型。我們的方法將在第3部分和第4部分詳述。在第5部分,實驗結果和一些相關的討論將會被列出。最后,在第6部分,我們將總結我們的工作。 Ⅱ. 相關著作 網絡輿情是一個寬泛的題目。從網絡中獲取情感傾向是一個困難的語義問題。與文本文檔比較,網頁有一些額外特點,例如HTML標簽,URL,超鏈接和錨文本,他們都被證明在獲取情感傾向時是有用的。最近許多有關利用這些特性進行情感傾向提取的網頁摘要研究[4,5]都完成了。 Dou[4]指出用于在網頁分類中預處理的網絡摘要技術是一個可行的且有效的技術。證據顯示考慮到上下文信息的摘要比僅僅從目標文檔提取的內容相關性更強。同樣,我們在摘要過程中利用網頁分類去從網頁中提取最相關的內容。我們系統的網絡輿情信息預處理模塊也使用了這些特點。 這個模塊由二個方法構成:數學算法或神經網絡和文本分類/聚類。 有許多根據數學算法中的方法構建的模塊。網絡公共會話的的增長使得網絡通信成為了一個潛在的富有的數據來源。P.D. Turney[6]介紹了一種從龐大的語料庫中對語義傾向進行無監督學習的簡單算法。這種方法涉及了向搜索引擎進行請求和利用逐點交互信息來分析結果。 類似地,Peter Jorgensen[7]探索了競爭(IAC)的相互作用和人工神經網絡(ANN)的使用來找到存在于電子郵件文本中的關系。最終,Pjianping Zeng[8]提出了隱馬爾可夫模型(HMM)來描述網絡輿情的活動。所有他們的研究最終形成了有關網絡輿情活動過程的數學模型的整合,這一整合可以利用一定的數據進行自動的分析。 其他的研究使用了文本分類或聚類的方法。文本分類當前是信息搜索和數據挖掘領域研究的一個熱門主題[9,10]。其在近年來有著迅速的發展,并在信息過濾,自然語言處理和信息的組織和管理方面有著廣泛的應用。Pyanjun Li和Soon M.Chung [11]提出了二種新的文本聚類算法,名為根據頻繁詞序的聚類(CFWS)和根據頻繁詞意序列的聚類(CFWMS)。 Ⅲ. IPOAS模型概覽 IPOAS模型采用了三層結構,分別是I/O層、服務處理層和數據層。圖1顯示了系統的具體結構。每層都可以被細分。每層的具體分解見圖1。 圖1. IPOAS模型 A. I/O層 1) 數據集:數據集與用戶要求要收集的數據有關。它主要包括內部數據、網絡數據和媒體數據。 互聯網在日常生活中逐漸成為了公眾交換信息的一個重要平臺。例如BBS、博客、門戶網站和政府網站等等信息平臺可以作為對輿情進行監視和疏導的一個來源。 2) 前端應用模塊:前端應用模塊是網絡輿情分析系統的輸出程序。在大多數情況下,它提供適應用戶需要的功能,包括有——熱點查尋,關鍵詞檢索,自動摘要,主題詞自動推薦,輔助收集功能等等。 B. 服務加工層數 1) 網絡輿情信息收集模塊:網絡輿情信息收集模塊用來定位網頁資源和獲取它的源代碼。 當前基于網頁鏈接的信息收集技術可以自動地獲取基于的網頁資源和源代碼。因而收集覆蓋面便可以通過鏈接遍及整個互聯網。網絡輿情監控系統可以根據用戶提供的網絡輿情關注點制定主體目標,然后利用手工干預和信息自動收集的聯合方法完成信息收集的任務。對于那些被定位的網頁資源,系統會判斷這些資源是否被保存進了歷史數據庫。如果是并且兩者相同,系統將忽略這樣的資源并繼續收集其他資源。相反,如果資源未被保存入數據庫或保存過后被改變了,系統將使用網絡爬蟲技術收集這些信息然后保存這些數據到數據庫中以便之后進行信息預處理工作。 2) 信息預處理模塊:信息預處理模塊的主要作用是通過使用諸如去雜、分詞和分類等方法將從網頁上收集的數據處理成格式化數據,然后將他們保存到數據庫中。這個模塊是網絡輿情分析系統中的數據準備和技術準備階段。預處理收集到的信息意味著轉換網頁格式并且過濾出網絡輿情信息。對于新聞評論,這個模塊需要過濾掉無關的信息并保留諸如新聞標題、來源、日期、內容、點擊量、評論者、評論內容、評論數量等等信息。類似地,對于BBS,模塊需要記錄帖子的標題、發帖人、發帖日期和時間、內容、回復、回復的數量的標題,最后要產生格式化過的信息。 收集模塊和信息預處理模塊的數據交互是通過文件完成的。所以信息預處理模塊可以直接將處理后的數據結果存放到數據庫中。 3) 網絡輿情語義分析模塊:網絡輿情語義分析模塊進一步地從信息預處理模塊生成的數據中挖掘數據。所運用的關鍵技術有熱點發現的和跟蹤,新事件發現,關聯分析和趨勢分析。 這一模塊是整體系統的核心模塊。它有著像網絡輿情監視,熱點跟蹤和事件發現等等功能。 在系統實現過程中,網頁信息分析方法基于向量空間模型,并且采用了成熟的的數據挖掘算法和技術,例如文本分類和文本聚類。與其他研究相比,這個系統的好處是它采用了靈活的方法對數據挖掘算法進行了整合應用,并且這些算法可以根據文本分析和數據挖掘的需要進行定制。可以確信,整體系統可以執行策略調整和優化以適應用戶和應用的需要,因此系統可以在使用中達到它的設計水平。 4) 趨勢分析模塊:趨勢分析模塊用來分析公眾對一個主題在不同的時期的關心程度。因而它可以提供網絡輿情趨勢的預測和預警服務來幫助決策者了解網絡輿情的趨勢和事先發現熱點問題。 C.數據層 數據層主要負責保存物理數據到數據庫中,這其中會用到有關算法、網絡輿情收集、網絡輿情特征向量、語義分析等方面的知識。 Ⅳ. 網絡輿情信息預處理技術 網絡輿情信息預處理模塊是網絡輿情分析系統中最重要信息處理的模塊之一。這個模塊將進一步處理從網絡輿情信息收集模塊傳來的網頁源代碼。現今有許多信息預處理技術,例如網頁摘要,網絡文本組織法,網頁凈化,網頁去重,文本分割,停用詞和功能詞刪除和詞頻統計。在這個部分,我們考慮如何分析嵌在網頁中的復雜隱晦的結構和如何使用這些信息進行網頁摘要。我們的方法是從網頁提取最相關的內容然后傳遞他們到一種標準文本分類算法中。 尤其是,我們將用頁面布局分析法識別出的內容主體指導網頁的摘要工作。 網頁中結構化的字符使網頁摘要與純文本摘要不同。這項任務的難點在于在網頁中數量眾多的“嘈雜”成分,例如導航條、廣告和版權信息。為了運用網頁的結構信息,我們使用了如[12]所描述的基于功能的對象模型(FOM)的一個簡化版本。 簡言之,FOM試圖通過辨認對象的作用和類別來了解作者的意圖。在FOM中,對象被分類成一個作為最小的信息體并不可進一步被劃分的基本的對象(BO),或者是一個組合對象(CO)。組合對象是對象(BO或CO)的集合,而這些對象可以同時發揮某些作用。BO的一個例子是jpeg文件。在HTML內容中,BO是一個在兩個標簽或一個內嵌對象中的不可分的元素。在BO的內容的里面沒有其他標記。根據這個標準,我們可以容易地在網頁里找出所有的BO。同樣,CO可以被網頁布局分析所查出。基本思想是在同一個類別的對象通常有一致的視覺樣式,以便他們可以從其他類別對象中由明顯的可見邊界分離,例如表格邊界。在查出網頁中的所有的BO和CO后,我們可以根據一些啟發式規則辨認每個對象類別。 這些規則的詳細例子在[15]中被展示;這里我們僅提供概要。首先,對象類別包括: 1)信息對象:這個對象表示內容信息。 2)導航對象:這個對象提供導航指南。 3)互動對象:這個對象提供用戶端互動。 4)裝飾對象:這個對象起裝飾作用。 5)特殊功能對象:這個對象執行特殊功能例如廣告、商標、聯系方式、版權、參考等等。 為了利用這些對象,從上述的對象類型中,我們定義了一個網頁中包含與該頁主題有關的主要對象的內容體(CB);這些是表達關于網頁重要信息的對象。找出CB的算法如下: 1. 把每個被選擇的對象當作一個單一文檔并且為對象建立的TF*IDF索引。 2. 利用余弦相似度算法計算任意兩個對象的相似度,如果相似度大于某個閾值,就增加一個這兩個對象間的鏈接。閾值需要根據經驗進行選擇。在處理完所有對象對之后,我們將得到一張連接不同的對象的關聯圖。 3. 在圖表中,擁有最多邊緣的對象被定義為核心對象。 4. 提取CB作為與核心對象相連接的所有對象的組合。 最后,我們將分配CB值S到每個句子。如果句子包括在“內容體”中,則Scb= 1.0;否則, Scb= 0.0。最后,所有Scb等于1.0的句子將用來進行我們所談到的的網頁摘要。 Ⅴ. 網絡輿情信息的語義分析(IPOISA) IPOISA是系統的核心技術,主要用來檢測和追蹤熱點。由它來確定網絡輿情(IPO)信息的準確性。系統運用文本分類和文本聚類的算法來實施語義分析和處理被預處理過的內容,以便建立由索引信息組成的分析數據庫。 圖2. 網絡輿情信息的語義分析 圖2顯示的是IPOISA的結構。 IPOISA包括文檔特征據庫、算法庫和分析結果數據庫。 文檔特征數據庫是在預處理網絡輿情(IPO)信息以后生成的知識數據庫。分析結果數據庫保存IPOISA的結果。 IPOISA的主要功能是算法庫,算法調度和線程操作: A. 算法庫 算法庫包括一些可以動態地被擴展和增加的配置文件。算法庫可以為每一種類型的執行線程生成特定的算法,并被算法調度程序所使用。系統根據系統管理員的需求保存關于算法策略的配置信息到算法庫中。 B. 算法調度 算法調度負責分配多線程的執行和管理任務,即IPOISA的引擎。算法調度用來調度不同的算法和處理次序來分類或聚類本文的特征向量,并且控制線程的運行。系統掌管和控制每個用戶的不同進程,這意味著他可以在同一時間處理一個用戶的不同進程。例如,由系統提供的基本的處理方法是熱點事件的探測和用戶感興趣的事件的追逐,然后系統可以同時為用戶A創造兩個進程—熱點探測進程“A_Detection”和事件跟蹤進程的“A_Tracking”,用這兩個進程來分析和處理來自多方面的信息。 C. 線程處理 每個處理線程都是文本分類或聚類之一的過程,包含值向量的生成、特征選擇或者特征提取、文本分類或聚類。算法庫確定每個線程的每個部分的算法。線程根據預編程序時間頻率和處理策略從文檔特征向量庫中讀取需要的內容,并且進行進一步的分析和處理,其結果將被保存入結果數據庫。最后,用戶可以在結果數據庫中進行查詢,所需要的結果將以適當的形式呈現給用戶。 Ⅵ. 實驗 為了確定對網絡分類和IPOAS的摘要效果,我們進行了幾次實驗。 A. 數據集 實驗數據集由我們自己的語科庫和北京大學中文網頁訓練集CCT2006組成。它包含8個類別和6000個句子,其中有4000個被用作訓練集合而其他的則用作測試。共有四個類別,包括教育、商業、計算機和互聯網、新聞和媒體,被選中用來分析結果。 B. 分類器 因為本文的焦點是確定對網絡分類和IPOAS的摘要效果,在實驗中我們選擇了兩個流行的分類器。 一個是原生貝葉斯分類器,另一個是支持向量機。 1) 原生貝葉斯分類器(NB) 原生貝葉斯分類器(NB)是在實踐中被證明很好使用的一種簡單但有效的文本分類算法。NB的基本思想是使用詞匯和分類的聯合概率來估算一篇給定文檔所在分類的概率。多數研究者通過運用貝葉斯規則使用NB方法: 當P(Cj|θ)可以通過計數在訓練數據出現的每個類別Cj的頻率來計算;|C| 是類別的數量;p(wi|cj)代表詞wi可能在分類cj出現的概率在可能小在訓練數據,這種概率在訓練數據中可能會較小,因此拉普拉斯過濾被用來估算它;N(wk,di)是單詞wk出現在di中的次數;n是單詞在訓練數據中的數量。 2) 支持向量機(SVM) 支持向量機(SVM)是V.Vapnik最近介紹的一個強有力的學習方法。它是建立在計算型學習理論之上的,而且已被成功地用于文本分類。 SVM通過在可能的輸入空間內發現超曲面來運作。超曲面試圖通過最大化最近的距離的正負面例子來從負面例子中分裂正面例子到超曲面。直觀地,這使為那些與訓練數據很近但又不相同測驗數據分類正確。有各種各樣的方式訓練SVM。一個特別簡單和快速的方法是由J.Platt開發的序列最小最優化(SMO)。他的序列最小最優化算法將二次規劃(QP)問題分解為一系列小的QP問題來進行分析解決。因而SMO算法有效地適用于大型的特征和訓練集。 3) 評估指標 我們使用標準指標來評估網頁分類的效果,即精確度、召回率和F1-measure指標。要確定這些,我們必須首先來了解一篇文檔的分類是否是真陽性(TP),假陽性(FP)或假陰性(FN) (參見表1) 表Ⅰ 一篇文檔的分類 TP 決定于一篇文檔是否根據其相關的分類被正確地分類。 FP 決定于一篇文檔是否被說明錯誤地與分類關聯。 FN 決定于一篇文檔是否本應關聯到一個分類卻沒有關聯上。 精確度(P)是在系統返回的所有被預言的正面類成員之中的系統返回的實際正面類成員的比例。P=TP/(TP+FP)。召回率(R)是被預言的正面成員在數據中所有實際正面類成員之中所占的比例。R= TP/(TP+FN)。F1是精確度和召回率的調和平均數,如下所示: F1 = 2* P *R/ (P + R) C. 實驗結果和分析 表Ⅱ 有關P、R和F1實驗結果 Education News and Media Computer and Internet Business P NB 95.51 97.36 94.37 92.24 SVM 93.29 97.06 95.03 91.85 R NB 90.33 96.93 91.34 93.71 SVM 90.87 96.25 91.08 93.65 F1 NB 92.85 97.14 92.83 92.96 SVM 92.06 96.65 93.01 92.74 實驗結果顯示兩種類型的成熟文本分類算法在被大量訓練集訓練后再次被聚類處理,精確率和召回率以及F1值大致相同。例如,兩種算法的結果在新聞和媒體方面令人滿意,然而NB在教育和商業類別中表現得要比SVM更好,而SVM比NB更擅長計算機和互聯網類別。可見一個適用不同的種類的文本分類算法的通用平臺由IPOAS建立。根據實際需要和用戶需求,IPOAS可以通過滿足不同算法的處理需求來運用更多更為有效的的算法。因此,這再次證明了IPOAS有良好的擴展性和多算法兼容性。 Ⅶ. 總結 以前,網絡輿情分析系統只不過是輿情信息處理的其中一環,只是文本分類或文本聚類而已。這種應用在某種狀況下經常被認為是差強人意的,例如,在用戶想要在某個時期把新聞歸類為教育、經濟、文化、科學技術等等,并且想要查看每個類別中的熱點事件時。很明顯地,這些要求的實現需要首先對文本進行分類,再從前一階段的結果中針對每個類別的文本進行聚類操作。 本文提出了一份網絡輿情分析的系統計劃。這個建模方法是可行且有效的。我們將文本分類和聚類算法巧妙地結合了起來,并證明了這種結合比僅使用它們其中的一個要更有效率、更有效果。我們通過應用網頁摘要技術可以從網頁中提取最相關的內容,然后把它們傳遞給一個標準的文本分類算法。通過實驗的結果,我們證明了這一系統在系統結構和設計上的優越性。 致謝 這一成果是在CEEUSRO工程(No.2008B090500201)和廣東省高校科學技術成果轉化重點工程(No.cgzhzd0807)的支持下完成的。