社会信息检索与计算作业,要求实现功能如下:
-
TFIDF: 给定用自己名字命名的文件夹,请自己爬取一定数量的网页、微博形成语料集合,存入该文件夹;在线状态下,对其中的词语进行TFIDF统计,且输出到文件中。文件存储目录为
app/tfidf/tfidf_result
。 -
SIM: 在线状态下,从网页页面输入任意两个句子,求其相似度,包括:内积,余弦及Jaccard三种度量方式。
-
SJet:实现基于向量空间模型(VSM)的搜索引擎。
- Linux
- python 2.7
- jieba
- flask 0.12
- 若干flask扩展
-
在工程根目录下打开终端
-
用如下命令激活python虚拟环境
source venv/bin/activate
-
用如下命令运行程序
python hello.py runserver
-
访问
127.0.0.1:5000
-
net_ease_roll.py
爬虫。爬取内容为网易滚动新闻国内、国际、社会版块,共计416篇新闻。爬虫运行环境为Windows。
-
tfidf_calc.py
对爬取的新闻文本做分词预处理。
-
config.py
存储配置。
-
hello.py
用于启动程序以及其他的任务程序。
-
app
-
__init__.py
Flask工程文件
-
sim
实现SIM功能蓝本,具体算法实现在此文件夹下views.py文件中
-
sjet
实现Sjet功能蓝本,具体算法实现在此文件夹下views.py文件中
-
tfidf
实现TFIDF功能蓝本,具体算法实现在此文件夹下views.py文件中
-
templates
前端模板。模板使用Jinja2模板引擎做前端渲染。
-