久久国产亚洲欧美日韩精品,国产精品一区在线麻豆,国产拍揄自揄精品视频网站,欧美日本一区二区三区免费,无码福利视频,亚洲无码视频喷水,亚洲三级色,亚洲狠狠婷婷综合久久久久

基于可擴展的網頁關鍵信息抽取研究論文

2021-04-14 論文

  1 引言

  網頁的關鍵信息是網頁的最基本的信息,它體現了該網頁和其他網頁的差別。常見的關鍵信息有正文、作者、來源、發布時間等。在網絡輿情監控、網絡情報分析、搜索引擎等重大網絡應用中,這些關鍵信息都是后期分析挖掘必不可少的基礎數據。需要利用網絡信息抽取技術從網頁中抽取出這些關鍵信息。從某種角度上講,關鍵信息的抽取質量直接決定了網絡應用服務的效果。因此,網頁的關鍵信息抽取研究具有重大的應用價值。

  隨著網頁規模呈指數級增長,在網絡應用中,模板無關的全自動信息抽取算法和基于模板的信息抽取算法以其特有的優勢成為信息抽取環節的主流算法。該算法通常針對特定需求,利用一些經驗規則處理特定領域或特定格式的網頁。因為抽取過程無需人工干預,所以此類算法越來越多地應用于實際網絡環境中。基于模板的信息抽取算法充分利用了動態網頁的規律:網頁是由同一個模板生成的,屬于模板的符號不會變化,變化的只是模板中填充的數據。因此,該算法在對動態網頁進行抽取時能夠取得較高的精度。

  但是,這兩類抽取算法也存在著其固有的缺陷。模板無關的全自動抽取算法通常基于過強的假設。在處理多樣性日益顯著的網頁時,常常因為某些網頁不符合假設,而導致出現抽取精度不能滿足需求的情況;并且由于使用過多規則,導致抽取效率低的情況。使用基于模板的信息抽取算法進行抽取時,需先針對某類網頁學習出模板,后人工標注。面對日益增多的數據源,會導致網絡應用的運維代價過大;同時日益復雜的網頁使得模板的準確性下降,從而導致抽取精度下降。

  針對上述模板無關的全自動信息抽取算法和基于模板的信息抽取算法的缺陷,本文進行了深入研究。本文的貢獻主要有以下兩點。首先,提出了一種可擴展的網頁關鍵信息抽取框架。該框架通過輸入訓練網頁或其他算法的抽取結果,生成關鍵信息模板集。再通過模板的正交過濾算法,生成候選的關鍵信息模板。最后通過模板的特征過濾算法,生成最終的關鍵信息模板。利用該模板可快速、準確地從同類型網頁中抽取關鍵信息。該框架很好地融合了模板無關的全自動信息抽取算法和基于模板的信息抽取算法,使得兩類算法能夠充分發揮各自的優點,并在缺點方面互相彌補。實驗結果表明,該框架能夠在抽取精度、抽取效率方面有本質上的提高。此外,該框架具有很好的可擴展性,框架中的一些關鍵環節可根據需求進行替換。其次,本文提出了模板的正交過濾算法,該算法將訓練網頁或其他算法的抽取結果分成若干份,生成若干個模板,再通過模板的正交過濾算法,過濾掉模板中的噪音部分,得到候選模板。將該算法引入基于模板的抽取算法中,能夠從本質上提高生成的模板的準確性,最后的實驗結果也充分驗證了這一結論。

  2 相關工作

  網頁信息抽取是一種針對網絡數據源和網頁進行深度處理和加工的過程。由于網頁的復雜性和多樣性,使得網頁信息抽取算法也越來越多。常見的網頁信息抽取算法主要可分為4類:包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關的全自動信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預,所以在實際的工程應用中,基于模板的信息抽取算法和模板無關的全自動信息抽取算法以其較強的實用性占據了主流的位置。基于模板的信息抽取通常基于這樣的假設:待抽取的網頁是由同一個模板生成的`,屬于模板的符號不會變化,變化的只是模板中填充的數據。符合這種生成模型的網頁都可以利用網頁模板分析方法來抽取。互聯網上大量存在的動態網頁是由機器生成的(例如論壇)網頁。基于模板的信息抽取的工作流程是:

  1)利用多個同類型網頁中具有共性的不變的部分生成一個模板;

  2)根據模板對同類型網頁進行抽取。因為此類算法過濾了網頁中的大量模板,只留下了數據,同時自動還原出了數據的結構,使得用戶在付出較小人工代價的同時,能夠獲得較為準確的關鍵信息。因此此類算法一直都是網絡應用中的主流算法。但是該類算法具有這樣的缺陷:首先需要針對同類型的網頁生成一個模板。模板的準確性直接決定了后續信息抽取的精確度。隨著網頁復雜性以及同一類型網頁的差異性的增大,生成的模板準確性隨之降低。模板無關的全自動信息抽取算法進一步提高了信息抽取的自動化程度。此類算法通常利用一些經驗規則處理特定領域或特定格式的網頁,例如,經典的全自動信息抽取算法MDR。該算法的缺陷在于通常基于過強的假設。以網頁正文抽取為例。網頁的正文往往是各大網絡應用都需要的關鍵信息,有不少針對正文抽取的模板無關的全自動抽取算法。CoreEx是通過計算DOM 樹中的鏈接文本比來確定正文所在的范圍。CETR是通過標簽的密度來確定正文所在的范圍。CETD結合了二者優點。這些算法自動化程度高,通用性強,但是效率較低,且假設過強,精確度不如基于模板的算法。VIPS是一種通用性較強的算法,但是它需要渲染網頁。因此這種方法的效率較低。

  在以往的文獻中,較少看到將模板無關的全自動信息抽取算法和基于模板的信息抽取算法結合使用的相關研究。在本文提出的框架中,巧妙地將這兩種算法有機地結合起來,使得二者能夠取長補短,從本質上提高信息抽取的質量。

【基于可擴展的網頁關鍵信息抽取研究論文】相關文章:

基于數據抽取與訂閱實現數據共享分析及研究論文10-30

合理定價評審抽取研究論文03-30

有關合理定價評審抽取的研究論文04-03

基于多單片機的串口擴展設計論文11-17

基于科技信息共享云服務機制研究論文11-02

基于Web的農機推廣信息系統的研究與設計論文11-02

基于GIS的農業動態信息共享網絡平臺研究論文11-07

基于CDI0理念下的《網頁設計》教學思考與研究的論文01-11

基于視覺搜索因素的網頁設計論文11-15

主站蜘蛛池模板: 日韩在线观看网站| 中文无码精品A∨在线观看不卡| 又黄又湿又爽的视频| 91九色视频网| 91色综合综合热五月激情| 亚洲天堂免费| 亚洲人成日本在线观看| 国产永久无码观看在线| 国产欧美日韩专区发布| 在线观看亚洲天堂| 国产自无码视频在线观看| 青青操国产视频| 在线视频亚洲欧美| a毛片免费观看| 日本AⅤ精品一区二区三区日| 狠狠久久综合伊人不卡| 日韩在线播放中文字幕| 成人免费一级片| 久久久久亚洲av成人网人人软件| 国产精品女人呻吟在线观看| 亚洲成aⅴ人片在线影院八| 欧美A级V片在线观看| 亚洲最黄视频| 亚洲av无码片一区二区三区| 日本91在线| 国产色婷婷视频在线观看| a级毛片在线免费| 波多野结衣第一页| 五月天在线网站| 日韩毛片视频| 日韩午夜福利在线观看| 一级福利视频| 国产亚洲视频在线观看| 亚欧美国产综合| 国产欧美成人不卡视频| 久久九九热视频| 中文字幕亚洲电影| 伊人久久久久久久久久| 人妖无码第一页| 久久久精品国产亚洲AV日韩| 亚洲婷婷丁香| 秋霞国产在线| 国产乱子伦视频在线播放 | 波多野结衣视频一区二区| 91色综合综合热五月激情| 九九精品在线观看| 人妻免费无码不卡视频| 午夜不卡福利| 幺女国产一级毛片| 国产福利免费在线观看| 露脸国产精品自产在线播| 无码精品国产dvd在线观看9久| 国产99视频免费精品是看6| 亚洲人成网址| 成人午夜网址| 国产精品久久自在自线观看| 全部无卡免费的毛片在线看| 国产免费黄| 97影院午夜在线观看视频| 成年女人a毛片免费视频| 成人国产精品网站在线看| 国产va在线观看| 丁香六月激情综合| 99久久亚洲综合精品TS| 国产后式a一视频| 国产噜噜在线视频观看| 日本a级免费| 色丁丁毛片在线观看| 亚洲无码高清一区| 永久免费AⅤ无码网站在线观看| 国产新AV天堂| 99热精品久久| 欧美影院久久| 无码AV动漫| 免费高清毛片| 国内精品手机在线观看视频| 午夜无码一区二区三区| 精品一区二区三区自慰喷水| 精品久久综合1区2区3区激情| 亚洲欧洲日产无码AV| 欧美笫一页| 5388国产亚洲欧美在线观看|