總體框架 網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)以基礎(chǔ)硬件為支撐,海量互聯(lián)網(wǎng)數(shù)據(jù)源為采集對象,以標(biāo)準(zhǔn)、規(guī)范和安全體系為保障,提供給客戶集輿情信息的采集、分析、展示、預(yù)警、管理、應(yīng)急導(dǎo)控處置于一體的監(jiān)控平臺。 系統(tǒng)總體框架由硬件支撐層、數(shù)據(jù)采集層、應(yīng)用層和操作層組成。采用面向服務(wù)的思想,利用松散耦合的分層方式將系統(tǒng)整體上分為四個(gè)層次和兩個(gè)體系,各層間的界限清晰,功能明確而不交叉,具有較高的可配置性和伸縮性。 1 硬件支撐層 硬件支撐層所需設(shè)備由客戶投入建設(shè),主要由服務(wù)器(若干)、存儲設(shè)備、路由器、網(wǎng)絡(luò)、安全基礎(chǔ)設(shè)備等構(gòu)成,一般放置在信息中心的機(jī)房中,也可托管于網(wǎng)通或電信機(jī)房,為整個(gè)系統(tǒng)提供基礎(chǔ)的硬件支撐。互聯(lián)網(wǎng)信息采集設(shè)備需接入互聯(lián)網(wǎng),內(nèi)部用戶訪問可使用局域網(wǎng)。 2 數(shù)據(jù)采集層 實(shí)現(xiàn)對上萬個(gè)全國知名網(wǎng)站及論壇、地方性網(wǎng)站及論壇、行業(yè)網(wǎng)站及論壇、境外重點(diǎn)中文網(wǎng)站及論壇信息的實(shí)時(shí)監(jiān)控;實(shí)現(xiàn)對國內(nèi)外著名博客、微博、貼吧、SNS、QQ群、帶文字的音視頻、手機(jī)網(wǎng)站的信息監(jiān)控采集。對重點(diǎn)來源網(wǎng)站信息實(shí)現(xiàn)5分鐘頻率更新,一般網(wǎng)站信息更新頻率為30-60分鐘內(nèi)。 3 應(yīng)用層 應(yīng)用層是整個(gè)系統(tǒng)的核心,采用面向服務(wù)的思想,為用戶輸出輿情監(jiān)測結(jié)果和用戶對信息的查詢、管理等任務(wù)。應(yīng)用層由五大應(yīng)用平臺組成,包括輿情搜索展示平臺、輿情管理工作臺、應(yīng)急導(dǎo)控處置平臺、用戶管理平臺和通訊平臺,利用Web Services技術(shù)為系統(tǒng)升級服務(wù)或?yàn)槠渌獠肯到y(tǒng)提供基于SOAP的遠(yuǎn)程方法調(diào)用接口,用以完成異構(gòu)系統(tǒng)之間的數(shù)據(jù)交換和同步。 4 操作層 系統(tǒng)為操作員提供友好的操作界面,易操作、易使用。 5 安全保障體系 從技術(shù)安全、運(yùn)行安全和管理安全三方面構(gòu)建安全防范體系,切實(shí)保護(hù)系統(tǒng)的可用行、機(jī)密性、完整性、抗抵賴性、可審計(jì)性、可控性。 6 標(biāo)準(zhǔn)規(guī)范體系 為保證系統(tǒng)有效運(yùn)行及與后續(xù)建設(shè)系統(tǒng)有效的集成,在系統(tǒng)建設(shè)和運(yùn)行中,需遵循和制定相關(guān)的業(yè)務(wù)規(guī)范、技術(shù)標(biāo)準(zhǔn)和運(yùn)行管理規(guī)范。 此外系統(tǒng)還滿足高可擴(kuò)展性和易操作的特性。可根據(jù)用戶單位的業(yè)務(wù)需求變化對軟件功能進(jìn)行擴(kuò)充與拓展;同時(shí)軟件操作和維護(hù)操作簡單,便于使用。 技術(shù)路線及系統(tǒng)架構(gòu) 在技術(shù)實(shí)現(xiàn)上,本互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)是采用目前最流行的B/S架構(gòu),使用面向?qū)ο蟮腏AVA開發(fā)語言研發(fā)而成,具有高擴(kuò)展性、高移植性和良好的跨平臺性。系統(tǒng)總體架構(gòu)圖如下: 輿情搜索和采集系統(tǒng) 互聯(lián)網(wǎng)信息采集技術(shù)是輿情監(jiān)控系統(tǒng)的基礎(chǔ)技術(shù),考察采集技術(shù)優(yōu)劣有及時(shí)性和全面性兩個(gè)指標(biāo),及時(shí)性要求重要網(wǎng)站信息的5分鐘采集入庫,一般性網(wǎng)站信息的30分鐘采集入庫;全面性要求采集來源能覆蓋全國性、地方性及行業(yè)性的知名網(wǎng)絡(luò),凡對輿論傳播有著影響力的新聞?wù)军c(diǎn)、知名論壇、博客、微博、視頻均需納入監(jiān)控范圍。此外還要求采集引擎具有可操作性,用戶可對采集環(huán)節(jié)進(jìn)行調(diào)整和優(yōu)化。 及時(shí)性和全面性是一組對立指標(biāo)。客戶自建的網(wǎng)絡(luò)輿情項(xiàng)目,一般投入有限,設(shè)備和網(wǎng)絡(luò)建設(shè)不可能支撐到對整個(gè)互聯(lián)網(wǎng)的監(jiān)測,而要追求采集的及時(shí)性,需采集頻率快,勢必會減少監(jiān)控的采集范圍,將輿情采集范圍更多地優(yōu)化為具有輿論傳播價(jià)值的網(wǎng)絡(luò)媒體,而非整個(gè)互聯(lián)網(wǎng)。東方剪報(bào)網(wǎng)絡(luò)輿情采集引擎,主要幫助客戶監(jiān)測重點(diǎn)輿論發(fā)布及傳播網(wǎng)站、跟蹤傳播內(nèi)容、分析首發(fā)媒體及事件傳播演變過程,通過信息和數(shù)據(jù)為輿情預(yù)警、研判和應(yīng)急處置提供支持,我司輿情產(chǎn)品具有以下采集特色及優(yōu)勢: (一)重點(diǎn)采集 對輿情高發(fā)網(wǎng)站和主流網(wǎng)站設(shè)置最高采集優(yōu)先級權(quán)重,以5分鐘的采集頻率采集信息,這些重點(diǎn)網(wǎng)站包括: 1. 地方性、行業(yè)性新聞網(wǎng)站及論壇:一般情況下,地方性、行業(yè)性新聞網(wǎng)站及論壇是輿情的首發(fā)地,以普通網(wǎng)友為發(fā)布人,表現(xiàn)為各種爆料求證信息,是輿情的重要監(jiān)測來源,這類信息的發(fā)現(xiàn)有助于傳播早期的輿論控制和引導(dǎo); 2. 全國性的新聞及社區(qū)網(wǎng)站:這些網(wǎng)站的用戶量大,瀏覽量大,是輿情最重要的傳播渠道,因能快速形成關(guān)注和傳播,且擴(kuò)大傳播面,如在這類網(wǎng)站上出現(xiàn)報(bào)道,也表示輿情事件的傳播進(jìn)入了發(fā)展或爆發(fā)期,需采取和早期不同的應(yīng)對和處置辦法,也是輿情的重要監(jiān)測來源; 3. 重點(diǎn)人的網(wǎng)絡(luò)ID:對于重點(diǎn)人的網(wǎng)絡(luò)(包括論壇、博客及微博賬戶)發(fā)言和活動, 能代表網(wǎng)上大部分人的言論,或是煽動言論,或是有害言論,是輿情的重要監(jiān)測源; 4. 自動啟動重點(diǎn)采集任務(wù):在設(shè)置專題和導(dǎo)控任務(wù)后,會自動啟動重點(diǎn)采集任務(wù),調(diào)整其優(yōu)先級和采集頻率,確保重點(diǎn)任務(wù)的完成; 5. 重點(diǎn)文章回復(fù)數(shù)/評論數(shù)及內(nèi)容的采集,用于分析網(wǎng)友觀點(diǎn)及態(tài)度; 6. 導(dǎo)控任務(wù)采集:追蹤文章在網(wǎng)絡(luò)上的發(fā)展動態(tài), u 文章是否存在, u 在各大搜索引擎是否存在快照,快照是否被刪除, u 點(diǎn)擊/回復(fù)數(shù)量的增幅情況; 7. 熱詞采集:采集百度熱詞。 (二)采集任務(wù)可操作性 用戶可手動調(diào)整采集任務(wù): 1. 自定義采集頻率:用戶可自定義網(wǎng)站的采集頻率,為不同權(quán)重的網(wǎng)站設(shè)置不同采集頻率; 2. 自主添加采集網(wǎng)站:用戶可自行添加采集的網(wǎng)站; 3. 自定義網(wǎng)站權(quán)重及優(yōu)先級:監(jiān)測網(wǎng)站的權(quán)重可維護(hù),用戶也可為不同權(quán)重網(wǎng)站設(shè)置采集優(yōu)先級; 4. 自定義采集任務(wù):用戶不僅可以調(diào)整單個(gè)網(wǎng)站的采集頻率,也可對其采集進(jìn)程進(jìn)行管理,關(guān)停或暫停網(wǎng)站的采集任務(wù); 5. 自定義微博地址:用戶可添加微博地址到采集庫,系統(tǒng)還提供導(dǎo)入模板供用戶批量導(dǎo)入微博地址。 6. 自主全網(wǎng)搜索添加:在全網(wǎng)搜索功能中,用戶可指定關(guān)鍵詞隨時(shí)搜索互聯(lián)網(wǎng),并可將搜索結(jié)果形成結(jié)構(gòu)化數(shù)據(jù)加入數(shù)據(jù)庫。 7. 定制搜索:提供關(guān)鍵詞、來源、時(shí)間、網(wǎng)站性質(zhì)等多種條件,供用戶定制搜索方案,用于經(jīng)常性的搜索請求。 (三)核心采集技術(shù) 采用定點(diǎn)采集和全網(wǎng)搜索相結(jié)合的采集機(jī)制,定點(diǎn)采集可確保第一時(shí)間采集到重點(diǎn)網(wǎng)站的信息,全網(wǎng)搜索可進(jìn)行傳播全面性的補(bǔ)充采集; 1. 定點(diǎn)采集:系統(tǒng)內(nèi)置的重點(diǎn)監(jiān)測網(wǎng)站,采用定點(diǎn)采集方式; 2. 全網(wǎng)搜索:通過關(guān)鍵詞對新聞?lì)愃阉饕妗⒄搲愃阉饕妗⒉┛皖愃阉饕妗⑽⒉╊愃阉饕婕按笮途W(wǎng)站的站內(nèi)搜索工具的信息聚合搜索; 3. 內(nèi)嵌腳本執(zhí)行引擎:隨著Web2.0相關(guān)技術(shù)的發(fā)展,腳本語言越來越多地應(yīng)用于論壇、新聞評論、博客等類型網(wǎng)站的建設(shè)。內(nèi)嵌腳本引擎對腳本語言的自動解析和執(zhí)行,實(shí)現(xiàn)對采用腳本語言的論壇、博客以及新聞評論網(wǎng)站的采集; 4. 7X24小時(shí)不間斷采集,5分鐘采集頻率,信息更新掃描最小間隔為1分鐘; 5. 關(guān)聯(lián)采集:在針對QQ群監(jiān)測中,系統(tǒng)可以自動將QQ群內(nèi)成員的騰訊微博加入到采集源中; 6. 對新浪微博、騰訊微博、境外推特、Facebook實(shí)行無限制、無屏蔽訪問搜索。 (四)支持網(wǎng)絡(luò)媒體形式 網(wǎng)絡(luò)媒體形式全:本系統(tǒng)內(nèi)置上萬個(gè)網(wǎng)站,可以對各類網(wǎng)絡(luò)媒體進(jìn)行監(jiān)測: 1. 門戶網(wǎng)站:系統(tǒng)可采集以媒體發(fā)布為主的新聞網(wǎng)站的信息; 2. 論壇:各種形式的BBS、貼吧、論壇、社區(qū); 3. 博客:各博客網(wǎng)站的博客信息; 4. 微博:國內(nèi)外微博網(wǎng)站信息監(jiān)測; 5. 電子報(bào):各類報(bào)紙的電子報(bào)的信息監(jiān)測; 6. QQ群:可監(jiān)測QQ群內(nèi)的聊天記錄; 7. 問答:對問答類網(wǎng)站的采集; 8. 視頻:對視頻網(wǎng)站文字信息的采集; 9. 境外信息:集成代理技術(shù),通過代理服務(wù)器采集屏蔽訪問的境外網(wǎng)站,監(jiān)控涉及國家安全、煽動等信息; 10. RSS:對RSS聚合信息的采集; 11. WAP:對WAP網(wǎng)站信息的采集; 12. 搜索引擎:對搜索引擎信息的聚合。 (五)采集內(nèi)容豐富 通過自動識別技術(shù)識別并抽取網(wǎng)頁的要素,包括:標(biāo)題、來源網(wǎng)站、來源頻道、發(fā)布人、發(fā)布時(shí)間、鏈接(URL)、正文、圖片、快照、表格,自動剔除廣告(圖片或flash)等垃圾部分,除此以外,針對不同媒體,還采集了其他要素: 1. 新聞:①是否頭版,②專題,③評論數(shù),④評論內(nèi)容; 2. 論壇:①點(diǎn)擊數(shù),②回帖數(shù),③是否論壇首頁、④置頂,⑤加精,⑥推薦,⑦熱帖,⑧回帖人,⑨回帖內(nèi)容; 3. 博客:①回帖數(shù),②回帖人,③回帖時(shí)間,④回帖內(nèi)容; 4. 微博:①轉(zhuǎn)發(fā)次數(shù),②評論數(shù),③粉絲數(shù),④評論人,⑤評論內(nèi)容,⑥博主信息,⑦粉絲名,⑧話題; 5. 視頻網(wǎng)站:①播放次數(shù),②評論數(shù),③評論內(nèi)容; 6. QQ群:①群內(nèi)發(fā)言,②群內(nèi)成員,③發(fā)言時(shí)間,④發(fā)言QQ,⑤發(fā)言圖片; 7. 附件采集:支持對.doc/.xls/.pdf/.txt文檔的監(jiān)測 8. 網(wǎng)站屬性:①TCP/IP信息,采集網(wǎng)站TCP/IP備案信息,②網(wǎng)站所屬地域; 采集存儲:系統(tǒng)抽取各類網(wǎng)絡(luò)媒體的信息要素,統(tǒng)一形成結(jié)構(gòu)化信息,供后續(xù)分析、檢索、查詢、統(tǒng)計(jì)和展示。 (六)其他采集技術(shù) 1. 支持驗(yàn)證碼采集; 2. 支持多頁合并采集。 (七)支持多語言采集 自動識別多種字符集編碼,支持對中文、英文、中文簡體、中文繁體、彝文、維文、藏文、蒙文、朝鮮語、韓國語、日語、西班牙語等語言的采集,并可以轉(zhuǎn)換為統(tǒng)一編碼格式。 (八)智能采集 1. 需要登錄與需要驗(yàn)證碼的網(wǎng)站信息采集,采集過程完全仿人工,實(shí)現(xiàn)了“登錄驗(yàn)證”采集。 2. 長期大量采集網(wǎng)站信息,會引起網(wǎng)站重視并可能導(dǎo)致封鎖IP,通過自動獲取代理IP地址并及時(shí)替換代理IP地址等技術(shù),防止個(gè)別網(wǎng)站進(jìn)行反采集,反監(jiān)測。支持多種網(wǎng)站的信息的編碼,GBK、BIG5、UNICODE、UTF8,軟件會自動轉(zhuǎn)換成GBK碼進(jìn)行統(tǒng)一的處理。軟件即會自動識別網(wǎng)站的組織結(jié)構(gòu),自動識別網(wǎng)站的編碼。 (九)增量采集與自動更新 對于初次采集目標(biāo)網(wǎng)站,軟件支持完全采集。而對于已采集過的站點(diǎn)支持增量采集。自動檢測站點(diǎn)是否發(fā)生更新,并不會遺漏任何一個(gè)重要信息。 (十)帶寬占用優(yōu)化 可采用分布式多線程并發(fā)指令執(zhí)行體系結(jié)構(gòu)、增量實(shí)時(shí)索引、智能分詞等多項(xiàng)先進(jìn)技術(shù),提高采集和數(shù)據(jù)管理效率,管理員可以靈活設(shè)置更新周期。客戶端采用可視化的配置工具,靈活配置應(yīng)用屬性頁的抓取信息。 (十一)主題跟蹤采集 針對熱點(diǎn)話題進(jìn)行信息跟蹤采集,自動啟動更高的優(yōu)先級,調(diào)動全網(wǎng)搜索模式,進(jìn)行信息量的快速聚合。跟蹤內(nèi)容包括:信息來源、轉(zhuǎn)載量、轉(zhuǎn)載地址、地域分布、發(fā)布人等元素。 根據(jù)新聞來源的權(quán)威度、評論數(shù)、發(fā)言時(shí)間頻率等參數(shù),識別出設(shè)定時(shí)間段內(nèi)的熱門話題。