您所在的位置: 成果库 一种中文钓鱼网站检测方法及系统

一种中文钓鱼网站检测方法及系统

发布时间: 2023-06-28

来源: 科技服务团

基本信息

合作方式: 技术服务
成果类型: 发明专利
行业领域:
电子信息技术
成果介绍
本发明公开了一种中文钓鱼网站检测方法及系统,该方法包括:S1、客户端获取网址URL;S2、分别提取网址URL特征和网站页面内容特征作为特征向量;S3、通过支持向量机、扩展的朴素贝叶斯算网站页面内容特征法、决策树算法、链接和表单处理对特征向量进行分类训练;S4、对分类训练的结果进行分类集成,判断网址是否为钓鱼网站。本发明提取网址URL特征和网站页面内容特征作为特征向量,使用SVM支持向量机、NBC朴素贝叶斯算法、决策树算法和链接表单的相应处理进行对应的分类训练,并使用分类集成对预测结果进行集成得到最终结果,大大的提高了分类的精度。
成果亮点
一种中文钓鱼网站检测方法,其特征在于,所述方法包括: 51、 客户端获取网址URL,将网址URL与本地数据库中的黑名单和白名单进行比对; 若网址URL在黑名单中,则直接返回警告信息; 若网址URL在白名单中,则返回该网址URL为正常网址;若不在本地数据库中,则将网址 URL发送至服务器; 52、 服务器分别提取网址URL特征和网站页面内容特征作为特征向量; 53、 通过支持向量机、扩展的朴素贝叶斯算法、决策树算法、链接和表单处理对特征向 量进行分类训练; 54、 对分类训练的结果进行分类集成,判断网址是否为钓鱼网站; 所述步骤S2中的网址URL特征包括:域名中是否包含IP形式、URL中是否包含16进制字 符、长度是否大于50、域名级数是否大于4、路径级数是否大于3、路径中是否含有敏感关键 字、Whois注册信息是否在一年之内、网站排名信息是否靠后; 所述步骤S2中的网站页面内容特征包括:string字符串、title标签、alt标签、keyword 标签、copyright标签、description标签、src名称、frame框架、form表单中的中文文本
团队介绍
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
成果资料
产业化落地方案
点击查看