1

sspai_spider

public

6 stars

0 forks

0 issues

Commits

List of commits on branch master.

Unverified

72a46f341e324a8d5dffee54374b8c15f7b165c0

UPDATE: README.md

1100gle committed 5 years ago

Unverified

8b7e89b0e68f5cf268a08d227f14bf66ab0248bb

UPDATE: add article content data

1100gle committed 5 years ago

Unverified

1f7ea07bef381871788ef2ed2bd91579e7c4c683

UPDATE: article content spider

1100gle committed 5 years ago

Unverified

3301836eed8717038ea40788e06e265d8308a5fe

更新README.md

1100gle committed 5 years ago

Unverified

604d2f07d5af3db2bd8d323eda5dd2d26a6b473f

更新数据与可视化notebook

committed 5 years ago

Unverified

fdd98a524fcf47b9e7bcb326111cfacf09e4ade6

用户成就代码 & 数据字段命名规范

committed 5 years ago

README

The README file for this repository.

整个项目的目录结构

.
├── README.md
├── analysis
│   ├── base_analysis.ipynb
│   └── title_NLP.ipynb
├── data
│   ├── article_content.xlsx
│   ├── page_data.xlsx
│   ├── stopwords.txt
│   ├── user_data.xlsx
│   └── user_dict.txt
└── spider
    ├── sspai.py
    └── sspai_user_info.py

文件详情

data：
- page_data.xlsx：存放爬取到的首页数据
- article_data.xlsx：存放爬取到的对应文章内容
- user_data.xlsx：存放用户页面的相关数据
- stopwords.txt：分词的停止词（用于自然语言处理）
- user_dict.txt：自定义字典，使分词时准确切分（用于自然语言处理，未完成）
spider：
- sspai_user_info.py：用于获取用户页成就的相关数据
- sspai.py：主要的爬虫程序，通过少数派自己的api访问并获取首页文章的相关数据
analysis：
- base_analysis.ipynb：数据分析的 Notebook
- title_NLP.ipynb：标题的自然语言处理部分（未完成）