本发明提出一种基于区块树的Web页面链接块的识别方法,并基于此提出链接块判别和评价指标,同时结合区块树提出正向链接块判别和逆向链接块判别两种基本的区块遍历和判别算法;正向判别法识别速度快,链接块粒度大,可用于对索引类型Web页面的分析及文本抽取应用中;逆向判别法能轻松灵活的控制链接块的粒度大小和数量规模,保障链接块的精细化和完整性,从而最终实现链接块对页面链接覆盖的全面性,该方法既可用于对链接块要求粒度细腻的场合,也可用于页面去噪、文本提取、页面抽取模板自动生成等场合;本发明所提出的区块树作为Web页面分析处理的基础,结合所提出两种遍历和判别法,可以广泛应用于Web数据预处理及数据挖掘等领域。
万维网是依赖链接所构建起来的一个庞大网络,链接是万维网的灵魂。万维网中 的每一个网页,正是通过Web页面之间的链接最终构成了当今世界最为复杂的网络,网络爬 虫也正是依靠Web页面之间的链接最终实现网络数据的爬取,Web页面的重要性也往往是通 过链接分析而获得。Web页面中的链接数目往往在数十到几千之间,特别是在索引(目录)类 型网页中,链接更是占据了近100%的比例。页面中的链接虽多,但在实际的应用中,网页中 的链接却并不乱,网页设计者会根据链接的类型将其进行适当的分类并呈现为链接区块, 例如广告链接块、顶部导航链接块、侧栏导航链接块、版权联系链接块、主题相关链接块等。 链接的分块呈现体现了网页信息组织的结构性和逻辑性,并增强了网站用户的用户体验。 Web页面链接块的准确识别,在Web页面重要性计算、Web页面去噪、主题相关链接块提取、 web正文识别、Web页面正文抽取、细化搜索引擎处理单元粒度、提高网络爬虫爬取效率等海 量Web数据预处理中有着极其重要的作用。
该发明提出的方法既可以应用在对链接块要求粒度细腻的场合,也可以应用在页面去噪、文本提取、页面抽取模板自动生成等场合。本发明所提出的区块树作为Web页面分析处理的基础,结合所提出两种遍历和判别法,可以广泛应用于Web数据预处理及数据挖掘等领域。
湖北文理学院是省属全日制普通本科高等院校,位于全国历史文化名城、湖北省域副中心城市—襄阳市,地处中华民族智慧化身诸葛亮的故居—古隆中。学校办学历史最早可以追溯到创办于1958年的襄阳师范专科学校;1966-1978年,武汉大学襄阳分校在此设立;1998年3月,襄阳师范高等专科学校、襄樊职业大学、襄樊教育学院合并组建襄樊学院;2000年7月,湖北省工艺美术学校整体并入;2012年2月,更名为湖北文理学院。是硕士学位授予单位、中央和地方共建高校、教育部本科教学工作水平评估优秀学校、全国普通高等学校毕业生就业工作先进集体、全国民族团结进步模范集体。
本发明提出了区块树及相关概念,并基于此提出链接块判别的若干指标和链接块研究的两项基本评价指标,同时结合区块树提出正向链接块判别和逆向链接块判别两种基本的区块遍历和判别算法。实验和分析表明:正向判别法识别速度快,链接块粒度大,可以应用于对索引类型Web页的分析研究;通过设置合适的正向判别开始层级参数m,也可以将其应用到Web页面文本抽取相关研究中。在逆向判别法中通过对链接块判别阈值Tcount和逆向标记阈值Tmark的调控,可以轻松灵活的控制链接块的粒度大小和链接块的数量规模,保障链接块的“精细化”和“完整性”,从而最终实现链接块对页面链接覆盖的“全面性”,在“精细化”、“完整性”和“全面性”三个方面取得平衡