1979年,加州斯坦福大学召开一场筹划东亚图书馆自动化的会议,希望订定中文交换码的标准作为自动化之根据,以解决使用电脑处理东亚语文资料的问题。那时的汉字码标准只有日本产业规格订定的JIS C6226,但由于日本汉字的数目、字型皆与中文有相当程度的差异,难以作为代表,经台湾和美国东亚图书馆华裔与会者强力反对后,决定先搁置决议,由台湾代表谢清俊在次年三月亚洲研究学会年会,提出台湾方面的汉字编码方案互作比较[6][1]。
谢清俊教授返国后,上书政务委员李国鼎及国科会、中研院中美科学学术合作委员会(简称中美会)等单位,集合国内一批文字学家、图书馆学家及计算机科学家,组成“中文资讯处理研究用字小组”(1985年其国字整理组从中美会转至文建会,改名为资讯应用国字整理小组),共同整理中文文字,并解决中文资讯处理的技术问题。其中,字码编定的部分由谢清俊、张仲陶、杨键樵、黄克东教授负责,文字审查工作则有潘重规、周骏富、周何、何佑森、金祥恒等教授参与,并由王振鹄、张鼎锺等教授担任中文资讯交换码审查小组的成员[7]。
台湾于次届亚洲学会年会上,提出共4,808字的“中文资讯交换码”;“中文资讯交换码”的架构为美方接受,但要求扩大编码字集。“国字整理小组”在1981年完成第二批,包括17,032个正体字、11,517个异体字;1987年再发表第三批,包括20,583个正体字。前后二次共计扩编至53,940个汉字字码,并完成64×64,32×32的机读字型;此外,为了方便电脑上的文字处理,又编制了“中国文字数据库”(Chinese Character Database,简称CCDB),其中列出每个字属性如部首、笔画、读音以及各种对应和输入码[6]。
CCCII后来获得美国国会图书馆认可,称为东亚文字码(East Asian Character Code,EACC),并于1989年纳入美国国家标准(编号:ANSI/NISO Z39.64)。CCCII并已被OCLC和RLIN(Research Libraries Information Network)用作中日韩文的书目字码标准[8]。
“国字整理小组”从1979至1989十年间,共计整理、搜集了75,684个汉字(正体字44,167、异体字31,517)[7]。随着张仲陶教授在1997年去世,以及谢清俊教授将发展方向转往汉字构形数据库,CCCII已停止维护、更新[9][10]。