Skip to content

luyifan/ContentSearch

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

#CC98文本检索

** 1、简介**

这是一个简易的文本检索系统,采用python编写,基本方法比较简单,主要是反向页表和Wtd-idf,中文分词采用的是python的库结巴分词。支持*用于模糊查找,比如“紫金*” 

** 2、方法**

使用scrapy进行爬虫 使用结巴分词对文本处理,得到关键字和codebook 求出反向页表中每个页面的信息 将搜索的语句和每个页面,求wtd-idf,按大小排序 页面采用bootstrap 

** 3、缺陷**

时间比较长,可以通过k-means先处理一下,可以用flann快速knn 可以使用flask框架,使页面更美观 

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors