导航菜单
首 页
模板
查询
套餐
代理
资讯
案例
关于
入口
您的位置:
首 页
>
新闻中心
>
企业建网站
> 企业建网站藏文网页倒排索引(上)
官网公告
服务领域
企业网站建设
公司网站制作
企业网站设计
企业建网站
企业做网站
手机网站建设
网站SEO优化
动态观点
资讯动态
行业动态
企业网站建设
公司网站制作
企业网站设计
企业建网站
企业做网站
手机网站建设
网站SEO优化
企业建网站
企业建网站藏文网页倒排索引(上)
发布:2020-10-21 14:08:22 浏览:1610
藏文网页倒排索引
。
第一步:抽取网页正文。网页正文是相对网页噪声而言。当今的互联网网页上, 页面的很多篇幅用在广告、搜索推荐和其他链接上。网页搜索工具关注的是网页本身要表达的信息, 所以在通过爬虫获取到页面源码之后, 要去除那些与本文无关的噪声, 抽取到网页正文。
第二步:分字。藏文文字区别于汉文, 汉文是一个字使用一个编码, 而藏文是对组成字的基字编码, 一个完整的藏文字可能存在多个编码, 这些编码按组成藏文字的方法顺序排列。
第三步:对全文以字建索引。以字建索引, 虽然检索过程的匹配计算量会更大, 但考虑到目前藏文网页总体数量不大, 应该是一种可行的提高查全率的办法。根据上一步得到的字, 记录每个字在文中出现的位置, 计算每个字出现的次数, 建立链表。位置用于检索时的准确定位, 次数用于计算字对文档的重要性, 也用于相关性排序计算。
>>> 查看
《企业建网站藏文网页倒排索引(上)》
更多相关资讯 <<<
本文地址:http://nlpc.cn/news/html/21005.html
上一个:
企业建网站网页背景
下一个:
企业建网站网页设计树立企业品牌宣传销售产品的功能
首页
手机
分类
顶部
友情链接
谷歌地图
百度地图
HTML地图
TXT地图
华友机械
恒悦房地产
网站设计
天盛文旅
三瑞电池
三瑞蓄电池
广志建设工程
PHP开发
建站代理
赶快点击我,让我来帮您!