GitXplorerGitXplorer
1

sspai_spider

public
6 stars
0 forks
0 issues

Commits

List of commits on branch master.
Unverified
72a46f341e324a8d5dffee54374b8c15f7b165c0

UPDATE: README.md

1100gle committed 5 years ago
Unverified
8b7e89b0e68f5cf268a08d227f14bf66ab0248bb

UPDATE: add article content data

1100gle committed 5 years ago
Unverified
1f7ea07bef381871788ef2ed2bd91579e7c4c683

UPDATE: article content spider

1100gle committed 5 years ago
Unverified
3301836eed8717038ea40788e06e265d8308a5fe

更新README.md

1100gle committed 5 years ago
Unverified
604d2f07d5af3db2bd8d323eda5dd2d26a6b473f

更新数据与可视化notebook

committed 5 years ago
Unverified
fdd98a524fcf47b9e7bcb326111cfacf09e4ade6

用户成就代码 & 数据字段命名规范

committed 5 years ago

README

The README file for this repository.

整个项目的目录结构

.
├── README.md
├── analysis
│   ├── base_analysis.ipynb
│   └── title_NLP.ipynb
├── data
│   ├── article_content.xlsx
│   ├── page_data.xlsx
│   ├── stopwords.txt
│   ├── user_data.xlsx
│   └── user_dict.txt
└── spider
    ├── sspai.py
    └── sspai_user_info.py

文件详情

  • data
    • page_data.xlsx:存放爬取到的首页数据
    • article_data.xlsx:存放爬取到的对应文章内容
    • user_data.xlsx:存放用户页面的相关数据
    • stopwords.txt:分词的停止词(用于自然语言处理)
    • user_dict.txt:自定义字典,使分词时准确切分(用于自然语言处理,未完成)
  • spider
    • sspai_user_info.py:用于获取用户页成就的相关数据
    • sspai.py:主要的爬虫程序,通过少数派自己的api访问并获取首页文章的相关数据
  • analysis
    • base_analysis.ipynb:数据分析的 Notebook
    • title_NLP.ipynb:标题的自然语言处理部分(未完成)