GitXplorerGitXplorer
m

pinyin-data

public
1263 stars
219 forks
10 issues

Commits

List of commits on branch master.
Unverified
fa9761fff402f8560196b1ba085c437c52b56d7c

Bump version: 0.14.0 → 0.15.0

mmozillazg committed 6 days ago
Unverified
ff391168c576eb68e41ac8ee2523da34114cad59

prepare v0.15.0

mmozillazg committed 6 days ago
Unverified
c7e69deee0358bdc8ed2c3050bf2300fe3c35d53

Merge remote-tracking branch 'origin/develop'

mmozillazg committed 6 days ago
Verified
10a1e94eab0d9aad4f0a0458359fba1ad380fe8f

更新 Unihan 数据版本为 16.0.0 (#52)

mmozillazg committed 6 days ago
Verified
ff2f0bd204dc1e8f414794664511efb2f1396a7e

Update zdic.txt: 去除zdic里的不匹配注释 (#51)

wwanicca committed a month ago
Verified
70b8ed7085f46a2d24bc1e6525fcfe858a0df5e1

Bump requests from 2.20.0 to 2.31.0 in /tools (#50)

ddependabot[bot] committed a year ago

README

The README file for this repository.

pinyin-data Build Status

汉字拼音数据。

数据介绍

拼音数据的格式:

{code point}: {pinyins}  # {hanzi} {comments}
  • # 开头的行是注释,行内 # 后面的字符也是注释

  • {pinyins} 中使用逗号分隔多个拼音

  • 示例:

      # 注释
      U+4E2D: zhōng,zhòng  # 中
    

拼音文件介绍:

  • kTGHZ2013.txt: Unihan DatabasekTGHZ2013 部分的拼音数据(来源于《通用规范汉字字典》的拼音数据)
  • kHanyuPinyin.txt: Unihan DatabasekHanyuPinyin 部分的拼音数据(来源于《漢語大字典》的拼音数据)
  • kXHC1983.txt: Unihan DatabasekXHC1983 部分的拼音数据(来源于《现代汉语词典》的拼音数据)
  • kHanyuPinlu.txt: Unihan DatabasekHanyuPinlu 部分的拼音数据(来源于《現代漢語頻率詞典》的拼音数据)
  • kMandarin.txt: Unihan DatabasekMandarin 部分的拼音数据(普通话中最常用的一个读音。zh-CN 为主,如果 zh-CN 中没有则使用 zh-TW 中的拼音)
  • kMandarin_overwrite.txt: 手工纠正 kMandarin.txt 中有误的拼音数据(可以修改
  • GBK_PUA.txt: Private Use Area 中有拼音的汉字,参考 GB 18030 - 维基百科,自由的百科全书可以修改
  • nonCJKUI.txt: 不属于 CJK Unified Ideograph 但是却有拼音的字符(可以修改
  • kanji.txt: 日本自造汉字 的拼音数据 (可以修改
  • kMandarin_8105.txt: 《通用规范汉字表》(2013 年版)里 8105 个汉字最常用的一个读音 (可以修改)
  • overwrite.txt: 手工纠正的拼音数据(可以修改
  • pinyin.txt: 合并上述文件后的拼音数据
  • zdic.txt: 汉典网 的拼音数据(可以修改
  • cc_cedict.txt: 根据 cc-cedict.org 的词语拼音数据生成的单个汉字拼音数据

Unihan Database 数据版本:

Date: 2024-07-31 00:00:00 GMT [KL]

Unicode version: 16.0.0

修改数据

  • 上面标注了 可以修改 字样的文件都可以直接修改
  • 如果汉字的拼音不需要修改,只是调整第一个读音的话,可以直接修改 kMandarin_8105.txt 这个文件
  • 执行 merge_unihan 命令可以按照合并规则生成最新的 pinyin.txt 文件
  • 进入 unihan 目录,执行 make update 命令可以更新最新的 Unihan 数据

参考资料

相关项目