GitXplorerGitXplorer
1

sspai_spider

public
6 stars
0 forks
0 issues

Commits

List of commits on branch master.
Unverified
b943b5544192a6d48d6d2ff1e0efe3fce436896b

用户成就代码 & 数据更新

committed 5 years ago
Unverified
5164296346a8eb2e7786ebd5e9cd4b1cbd0dfdf4

优化成就数据爬取代码

1100gle committed 5 years ago
Unverified
23403edaf0d13510cf3c054f8ff740d9635da957

添加TODO事项 & 更新base_analysis

1100gle committed 5 years ago
Unverified
2a9f1b901dafc6ad6a2c2dd2bb123239db30c66d

修改文档说明

1100gle committed 5 years ago
Unverified
a803a7f258912e67b97845748d7fb579f5309746

1100gle committed 5 years ago
Unverified
5e6a11bbd8c378883c2660833f85d1db09a234d4

修改文档说明 & 文件命名

committed 5 years ago

README

The README file for this repository.

整个项目的目录结构

.
├── README.md
├── analysis
│   ├── base_analysis.ipynb
│   └── title_NLP.ipynb
├── data
│   ├── article_content.xlsx
│   ├── page_data.xlsx
│   ├── stopwords.txt
│   ├── user_data.xlsx
│   └── user_dict.txt
└── spider
    ├── sspai.py
    └── sspai_user_info.py

文件详情

  • data
    • page_data.xlsx:存放爬取到的首页数据
    • article_data.xlsx:存放爬取到的对应文章内容
    • user_data.xlsx:存放用户页面的相关数据
    • stopwords.txt:分词的停止词(用于自然语言处理)
    • user_dict.txt:自定义字典,使分词时准确切分(用于自然语言处理,未完成)
  • spider
    • sspai_user_info.py:用于获取用户页成就的相关数据
    • sspai.py:主要的爬虫程序,通过少数派自己的api访问并获取首页文章的相关数据
  • analysis
    • base_analysis.ipynb:数据分析的 Notebook
    • title_NLP.ipynb:标题的自然语言处理部分(未完成)