來自北大中文論壇—中文信息版塊—輸入法討論專區—希夷先生的貼子中的一小部分。
原貼爲「倉頡、五筆和鄭碼的手指擊鍵率統計」
統計方法:
將字頻表中每個字的頻次(在語料中的出現次數)賦與該字各輸入法相應單字編碼(有簡碼的,用最短簡碼)中的各個字母。
如「以」字頻次為8515 倉頡碼為 vio, 則記該字中 v = 8515 i = 8515 o = 8515。
然後,將各個字母在字碼表中的全部頻次值累加起來,得出各個字母所對應鍵的擊打頻次。
字頻資料取自臺灣《八十七年常用語詞調查報告》
鄭碼用的是得自互聯網的繁體鄭碼碼表
阿牧泰:不过方法上是不是考虑不够?现在的人使用输入法都是输入词组,没有人一个字一个字敲的,按照单字的字频继续统计,似乎不能反映真实的情况
希夷先生:
誰甚麼時候打單字,甚麼時候打詞語是沒法紙上談兵單靠語料作統計的,只能靠作實打的實驗來收集數據,這種實驗俺可做不起
所以此統計衹能用做參攷。
原貼爲「倉頡、五筆和鄭碼的手指擊鍵率統計」
統計方法:
將字頻表中每個字的頻次(在語料中的出現次數)賦與該字各輸入法相應單字編碼(有簡碼的,用最短簡碼)中的各個字母。
如「以」字頻次為8515 倉頡碼為 vio, 則記該字中 v = 8515 i = 8515 o = 8515。
然後,將各個字母在字碼表中的全部頻次值累加起來,得出各個字母所對應鍵的擊打頻次。
字頻資料取自臺灣《八十七年常用語詞調查報告》
鄭碼用的是得自互聯網的繁體鄭碼碼表
阿牧泰:不过方法上是不是考虑不够?现在的人使用输入法都是输入词组,没有人一个字一个字敲的,按照单字的字频继续统计,似乎不能反映真实的情况
希夷先生:
誰甚麼時候打單字,甚麼時候打詞語是沒法紙上談兵單靠語料作統計的,只能靠作實打的實驗來收集數據,這種實驗俺可做不起
所以此統計衹能用做參攷。