計算機文本信息挖掘技術論文
時間:2022-09-28 09:49:43
導語:計算機文本信息挖掘技術論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
我國的經(jīng)濟社會不斷發(fā)展,科學技術水平不斷提升,在數(shù)據(jù)時代背景下,信息呈現(xiàn)爆炸增長趨勢,需要對數(shù)據(jù)信息進行高效處理,不斷提高工作效率。信息技術加快了數(shù)據(jù)傳播的速度,優(yōu)化了信息交流的方式,但也存在安全隱患問題。為了保障網(wǎng)絡安全,可以應用計算機文本信息挖掘技術。
1計算機文本信息挖掘技術概述
計算機文本信息挖掘技術類屬于數(shù)據(jù)處理技術的范疇,被應用在數(shù)據(jù)處理之中,主要面向文本信息。應用計算機文本信息挖掘技術可以從海量文本信息中提取有效信息,并概括這些信息數(shù)據(jù)的特點等,對這些信息進行分類和識別。計算機文本信息挖掘技術具有復雜性特征,其應用流程如下所示:(1)計算機文本信息挖掘技術會對文本對象進行選取,文本對象大多是來自期刊、網(wǎng)頁和其他數(shù)據(jù)庫中的文本信息。(2)計算機文本信息挖掘技術對文本對象進行了預處理,包括對文本對象進行去噪處理、分詞處理等等。在預處理過程中,計算機文本信息挖掘技術提取了文本對象的特征,并將文本對象特征表示出來。(3)計算機文本信息挖掘技術對文本信息進行了深入挖掘,對具有統(tǒng)一特征的文本對象進行了分類,并考察了信息數(shù)據(jù)之間的關聯(lián)性,預測了文本對象的發(fā)展趨勢。以上三步是計算機文本信息挖掘技術應用的重要流程,也是文本挖掘的主要步驟。在應用計算機文本信息挖掘技術時,還需要經(jīng)常應用鄰近分類算法。鄰近分類算法類屬于文本分類方法的范疇,在應用鄰近分類算法的過程中,需要先制定分類方案,并對數(shù)據(jù)、分類方案進行比對,看文本屬性最接近哪一個分類方案,可以被歸入到哪一個分類方案之中。為了確保分類的準確性,需要明確分類方案的描述特征,并對文本進行設置。通過計算文本和分類方案的鄰近性,可以對文本進行初步分類。
2計算機文本信息挖掘技術在網(wǎng)絡安全中的應用
2.1應用必要性。當前信息數(shù)據(jù)越來越多,如何剔除無效數(shù)據(jù),保留有效數(shù)據(jù),成為各行各業(yè)關注的重點問題。信息技術改變了人們的生活方式,改變了社會的生產(chǎn)方式,人們依靠手機、電腦進行線上交流,通過微博、微信等進行線上互通;社會通過網(wǎng)絡系統(tǒng)進行生產(chǎn)控制,通過信息技術進行運營監(jiān)督。信息技術在一定程度上便捷了人們的生活,推動了社會的發(fā)展,需要進一步推動信息技術創(chuàng)新,擴大信息技術的應用范圍。在發(fā)展的同時,也需要看到信息技術存在的問題。伴隨信息量的不斷增加,網(wǎng)絡中的虛假信息、詐騙信息等越來越多,只有對這些垃圾信息進行有效攔截,才能保證網(wǎng)絡安全,保障用戶的個人權益。計算機文本信息挖掘技術有著重要的應用價值,其可以對海量信息進行有效分類,識別網(wǎng)絡中的真實信息、虛假信息,并對廣告信息等進行剔除。計算機文本信息挖掘技術對信息數(shù)據(jù)進行有效判斷,能夠保障網(wǎng)絡安全。實際應用條件上,針對網(wǎng)絡化的信息形式,需要對其中的基礎文本信息進行分析,尤其是與系統(tǒng)內(nèi)容相關聯(lián)的信息內(nèi)容上,務必要進行必要的調(diào)整,并通過相應的技術條件,保證網(wǎng)絡信息內(nèi)容的安全性。例如,在當前的技術應用條件下,通過手機系統(tǒng)程序,就可以完成對與手機接收信息的文本分析,并在大數(shù)據(jù)系統(tǒng)的基礎上,通過文本內(nèi)容的捕捉,確定此類信息的狀態(tài)。由此,定位可能存在的垃圾信息,并在手機使用設定中,將此類信息規(guī)整到統(tǒng)一的存儲格式中,由使用者進行二次確認,并保證信息管理的有效性狀態(tài)。2.2應用路徑。為了發(fā)揮計算機文本信息挖掘技術的作用,應該改進鄰近分類方法。計算機文本信息挖掘技術通過鄰近分類方法對互聯(lián)網(wǎng)信息進行分類,只有優(yōu)化鄰近分類方法,才能提升文本信息分類的準確性。傳統(tǒng)的鄰近分類方法存在弊端,不同分類特征可能存在共線,文本信息分類可能會出現(xiàn)訛誤情況。在技術改進過程中,需要堅持將傳統(tǒng)方法作為依托,并對文本特征進行細化描述。技術人員需要合并共性屬性比較明顯的文本特征,并考察特征向量的維度,對其進行有效壓縮。通過上述方法,文本信息分類將更加高效。為了驗證計算機文本信息挖掘技術的有效性,需要開展實驗,考察計算機文本信息挖掘技術與網(wǎng)絡安全檢測之間的關系。技術人員首先要確定實驗對象,包括文本信息預測庫等,并盡量擴充其中的文本信息,確保其中有正常文本信息、廣告信息、詐騙信息等等。根據(jù)語料庫設定原則,需要對文本中的數(shù)據(jù)信息特征進行有效概括,看哪一種信息類屬于文本信息、哪一種信息類屬于廣告信息和詐騙信息。技術人員也可以對廣告信息、詐騙信息等進行合并,將其命名為危害信息。技術人員需要采用鄰近分類方法,測試計算機文本信息挖掘技術的應用效果。在設置評價參數(shù)的過程中,應該采用算法判定方式和專家判定方式。上述實驗將會出現(xiàn)四種可能性:(1)算法、專家判定安全信息;(2)算法、專家判定危害信息;(3)算法判定安全、專家判定危害信息;(4)算法判定危害、專家判定安全信息。技術人員需要對評價精度、評價誤差等進行計算,并設計信息檢測平臺,為計算機文本信息挖掘技術的應用提供支撐。網(wǎng)絡信息檢測平臺應該分成一級功能、二級功能,一級功能應該包括首頁、用戶管理等,而二級功能應該包括分類方法、參數(shù)評價等。2.3文本挖掘主要技術方向。文本挖掘技術,是計算機網(wǎng)絡化的應用技術手段,也是具體系統(tǒng)開發(fā)的方向性技術,在與具體產(chǎn)業(yè)進行結合的過程中,可以憑借自身的技術又是條件,適應到多種類型的技術空間中,展示自身科技型價值,適應知識經(jīng)濟發(fā)展環(huán)境。(1)基于網(wǎng)絡文本分析的技術條件,可以在網(wǎng)絡新聞與輿情發(fā)掘的過程中,發(fā)揮自身的技術優(yōu)勢,對構筑安全的網(wǎng)路環(huán)境,貢獻出基礎性技術內(nèi)容。在網(wǎng)絡化的輿情環(huán)境中,個人信息、商業(yè)機密等內(nèi)容的傳播,都會造成嚴重損失,威脅到企業(yè)與個人的信息與財產(chǎn)安全。而在這一內(nèi)容的管理中,需要對客觀的網(wǎng)絡輿情狀態(tài)進行分析,在過濾文內(nèi)容的同時,過濾具體的信息數(shù)據(jù),通過關聯(lián)性分析、網(wǎng)絡溯源、輿情評價等內(nèi)容,保證對于整體信息的管理狀態(tài)。尤其在輿情的推演中,可以形成完整的模型系統(tǒng),并在模型的綜合作用下,保證技術的完整性與成長性,針對實際工作環(huán)境做出必要的基礎性保證。(2)專利信息的安全管理中,應用文本數(shù)據(jù)挖掘的工作模式,也可以起到積極作用。專利信息,大多是企業(yè)核心科技的關鍵內(nèi)容,與企業(yè)的經(jīng)濟收益與市場競爭條件息息相關,需要在技術內(nèi)容上,形成系統(tǒng)性的防護條件,并在執(zhí)行過程中,針對專利系統(tǒng)的管理流程,設置具體的文本挖掘工作方案,在程序的規(guī)范性狀態(tài)下,保證管理的有效性。方法上,需要針對專利權登記資料、專利所有權挖掘、專利使用權調(diào)查等內(nèi)容,維護整體技術管理體系的建設狀體,實現(xiàn)同步化的專利技術分析。(3)在文本挖掘技術的應用開發(fā)中,表現(xiàn)出了明顯的技術成長性,在多種專業(yè)領域展現(xiàn)技術應用條件的同時,也在綜合性、管理性的內(nèi)容中,呈現(xiàn)出了明顯的應用價值特征。例如,在醫(yī)療領域,文本分析可以被應用在醫(yī)學健康分析的工作中,通過在中藥成分分析、西藥用藥規(guī)律總結等多種信息化內(nèi)容的安全數(shù)據(jù)整理,利用各種敏感詞匯與數(shù)據(jù),保證了整體信息化系統(tǒng)的建設條件。又如,在企業(yè)的市場管理中,可以憑借這技術應用條件,對市場環(huán)境中的相關信息進行提取與分析。并在綜合相關市場人員掌握數(shù)據(jù)的同時,結合企業(yè)實際發(fā)展狀態(tài),形成指導性的參考數(shù)據(jù)材料,保證整體信息系統(tǒng)的建設狀態(tài),并使相應網(wǎng)絡資料為實際運行策略的制定提供參考,維護了發(fā)展信息綜合性分析執(zhí)行效果。
3結論
綜上所述,我國的信息技術不斷發(fā)展,互聯(lián)網(wǎng)范圍進一步拓展,網(wǎng)絡安全問題屢見不以在網(wǎng)絡新聞與輿情發(fā)掘的過程中,發(fā)揮自身的技術優(yōu)勢,對構筑安全的網(wǎng)路環(huán)境,貢獻出基礎性技術內(nèi)容。在網(wǎng)絡化的輿情環(huán)境中,個人信息、商業(yè)機密等內(nèi)容的傳播,都會造成嚴重損失,威脅到企業(yè)與個人的信息與財產(chǎn)安全。而在這一內(nèi)容的管理中,需要對客觀的網(wǎng)絡輿情狀態(tài)進行分析,在過濾文內(nèi)容的同時,過濾具體的信息數(shù)據(jù),通過關聯(lián)性分析、網(wǎng)絡溯源、輿情評價等內(nèi)容,保證對于整體信息的管理狀態(tài)。尤其在輿情的推演中,可以形成完整的模型系統(tǒng),并在模型的綜合作用下,保證技術的完整性與成長性,針對實際工作環(huán)境做出必要的基礎性保證。(2)專利信息的安全管理中,應用文本數(shù)據(jù)挖掘的工作模式,也可以起到積極作用。專利信息,大多是企業(yè)核心科技的關鍵內(nèi)容,與企業(yè)的經(jīng)濟收益與市場競爭條件息息相關,需要在技術內(nèi)容上,形成系統(tǒng)性的防護條件,并在執(zhí)行過程中,針對專利系統(tǒng)的管理流程,設置具體的文本挖掘工作方案,在程序的規(guī)范性狀態(tài)下,保證管理的有效性。方法上,需要針對專利權登記資料、專利所有權挖掘、專利使用權調(diào)查等內(nèi)容,維護整體技術管理體系的建設狀體,實現(xiàn)同步化的專利技術分析。(3)在文本挖掘技術的應用開發(fā)中,表現(xiàn)出了明顯的技術成長性,在多種專業(yè)領域展現(xiàn)技術應用條件的同時,也在綜合性、管理性的內(nèi)容中,呈現(xiàn)出了明顯的應用價值特征。例如,在醫(yī)療領域,文本分析可以被應用在醫(yī)學健康分析的工作中,通過在中藥成分分析、西藥用藥規(guī)律總結等多種信息化內(nèi)容的安全數(shù)據(jù)整理,利用各種敏感詞匯與數(shù)據(jù),保證了整體信息化系統(tǒng)的建設條件。又如,在企業(yè)的市場管理中,可以憑借這技術應用條件,對市場環(huán)境中的相關信息進行提取與分析。并在綜合相關市場人員掌握數(shù)據(jù)的同時,結合企業(yè)實際發(fā)展狀態(tài),形成指導性的參考數(shù)據(jù)材料,保證整體信息系統(tǒng)的建設狀態(tài),并使相應網(wǎng)絡資料為實際運行策略的制定提供參考,維護了發(fā)展信息綜合性分析執(zhí)行效果。
參考文獻
[1]江啟煜,何曉華,劉秀峰,等.基于大數(shù)據(jù)整合與文本挖掘的中藥生物分子信息文獻系統(tǒng)關鍵技術模型[J].醫(yī)學信息學雜志,2019,40(02):53-57.
[2]韓文智.計算機文本信息挖掘技術在網(wǎng)絡安全中的應用[J].華僑大學學報(自然科學版),2016,37(01):67-70.
作者:劉樹飛 單位:湖南工藝美術職業(yè)學院