导航菜单
首 页
模板
查询
套餐
代理
资讯
案例
关于
入口
您的位置:
首 页
>
新闻中心
>
手机网站建设
> 手机网站建设网页正文内容抽取方法
官网公告
服务领域
企业网站建设
公司网站制作
企业网站设计
企业建网站
企业做网站
手机网站建设
网站SEO优化
动态观点
资讯动态
行业动态
企业网站建设
公司网站制作
企业网站设计
企业建网站
企业做网站
手机网站建设
网站SEO优化
手机网站建设
手机网站建设网页正文内容抽取方法
发布:2021-01-29 15:33:35 浏览:2100
网页正文内容抽取方法
, 该算法思路是先需要对Web页面进行分块处理, 处理结果同样利用DOM树原理进行解析, 然后集合阈值计算和正则表达式, 对于处理网页正文准确率较高。
非基于DOM的Web页面提取技术比较著名就是微软亚洲研究院提出的VIPS基于视觉的网页分块算法。该算法从用户的视觉感官体验出发, 根据Web页面的背景色、前景色、元素之间的间距来对Web页面进行视觉划分, 建立相应的分割条和网页分块集, 基于此基础再进行文本信息的抽取, 算法规则十分复杂。目前很多Web页面的视觉特点也很复杂, VIPS算法针对此类页面时准确率和效率较差。因此, 高乐等人提出一种改进的VIPS算法, 算法针对<table>标签的处理进行优化处理, 并通过实验证明了改进算法正确率得到了提升。
此外, 还有一些不基于DOM树对网页文本提取的方法, 例如《基于权值优化的网页正文内容提取算法》的通过统计分析Web页面正文内容特点, 得到页面中各个文本内容块属性特征, 并使用粒子群优化算法对特征权值及阈值进行了确定及优化。
>>> 查看
《手机网站建设网页正文内容抽取方法》
更多相关资讯 <<<
本文地址:http://nlpc.cn/news/html/23506.html
上一个:
手机网站建设其它安全性措施
下一个:
手机网站建设色彩
首页
手机
分类
顶部
友情链接
谷歌地图
百度地图
HTML地图
TXT地图
华友机械
恒悦房地产
网站设计
天盛文旅
三瑞电池
三瑞蓄电池
广志建设工程
PHP开发
建站代理
赶快点击我,让我来帮您!