设为首页 | 登录 | 免费注册 | 加入收藏
文献检索:
  • 汉语并列复句的自动识别方法
  • 针对汉语句际关系中分布最广泛的并列复句,提出一种自动识别的方法。通过对句子语义相似度和结构相似度的计算,使用基于词义的句子相似度计算、最大公共子串、最大谓词周边匹配长度、加重特定词语复现等方法,在广义并列关系上进行评测。最后将其中3种方法进行集成,并取得了较为理想的效果。
  • 基于逗号的汉语子句识别研究
  • 根据篇章分析的任务和实践,结合传统研究,提出汉语的基本篇章单位为子句,并从结构、功能、形式等方面给出其定义。分析了逗号与子句的关系,并在标注语料上进行了基于逗号的汉语子句识别研究。首先手工标注了CTB6.0中前100篇文档的逗号是否为子句边界的信息,在标注结果中抽取句法、词汇、长度等特征进行实验,子句识别准确率为90%。然后利用信息增益选小贡献最大的9个特征,使用它们也可获得较高的子句识别准确率。最后仅使用词法信息,子句识别准确率可达84.5%。实验证明子句的定义合理,基于逗号的子句识别在理论上和实验上均可行。
  • 属性和属性值组合的概念模板
  • 基于本体抽取三元组(概念,属性,属性值),以词汇聚类为基础,将概念表示为属性和属性值的组合向量,对基于属性的概念模板和基于属性值的概念模板进行对比。研究发现,基于属性和属性值组合的概念模板优于任何一个单独的模板。
  • 汉语并列关系的识别研究
  • 针对汉语并列关系的标注方式,提出一种基于条件随机场模型的并列关系自动识别方法。从语料库中自动抽取并列关系的角色信息,进行角色标注,在条件随机场模型的基础上实现并列关系的识别。与基于图的依存分析方法比较,并列关系的召回率和正确率分别提高了9.1%和13.8%。
  • 汉语句类依存树库的构建研究
  • 以机器翻译领域为应用目标,以概念层次网络理论的语义网络和句类分析方法为理论基础,探讨句类依存树库构建的理论和标注实践等问题。详细描述了构建树库所需的概念类别标注集和句类关系标注集,并给出了句类依存树样例。
  • 基于协同图排序的对比新闻自动摘要
  • 采用协同图排序模型,为两个可比的新闻话题自动生成对比摘要。利用一个话题内句子之间的相似性,以及不同话题中旬子之间的对比性,采用迭代增强的方法,同时计算两个话题中每个句子的重要程度,并考虑信息的新颖程度,选择适当的句子组成对比摘要。实验结果表明了该方法的有效性。
  • 面向自动文摘的主题划分方法
  • 对当前主题划分方法进行了分类,对主题划分算法TextSegFault(TSF)做了相关改进。根据文本的类型,从TSF算法和改进的TSF算法中选择其一来进行主题划分,以适应自动文摘任务的需要。实验结果表明,引入本文的主题划分方法能有效地解决传统自动文摘方法造成的主题确实和主要主题冗余的问题,使文摘的结构平衡化。
  • 版式电子文档表格自动检测与性能评估
  • 针对版式电子文档的特点,提出一种表格线分割符和表格文本的布局特征相结合的表格定位方法,并且对中英文档均有效。此外,针对缺少表格定位自动评估体系,构建了一个初具规模的公开数据集,由中英文版式页面等比例组成,对其标注基准结果,并针对移动阅读应用场景提出一套评估准则。通过与现有两个开源表格定位项目的比较,验证了新提出的表格定位方法的有效性和评估体系的实用性,特别是对中文数据集获得了较好的结果。
  • 基于笔端形状相似性的汉字字体识别
  • 提出一种基于笔端相似性的方法,来解决在较大规模字体集上的单字符字体识别问题。该方法首先提取汉字笔画上的特定部位——笔端,然后利用笔端形状作为汉字的字体特征,对其进行识别。实验证明,该方法不但在常用字体集合上的识别效果优于同类方法,而且在扩展后的大字体集合上也能达到较高的识别率。
  • 甲骨文字形动态描述库及其字形生成技术研究
  • 基于甲骨文字形多变,异体字多等特点,提出一种甲骨文字形描述方法,将甲骨文字形进行矢量描述。建立了甲骨文字形描述库,通过字形描述库自动生成多种甲骨文字形,有效地解决了由于使用轮廓字形描述甲骨文字形而存在的字形动态编辑和字形变换的困难,为古文字的数字化编辑提供了一个新思路。
  • 藏文音节规则模型及应用
  • 首先介绍藏文音节独特的构造方法,以及藏文字母的语音特性带来的藏文组合形式上的诸多限制。然后以藏文音节为研究对象,借助藏文语法规则,建立现代藏文音节的简化模型和相应的规则库,并介绍其应用领域。最后提出一种基于音节模型的的藏文音节自动拼写算法,并通过实验验证规则方法的有效性。
  • 藏文数词识别与翻译
  • 通过对藏文数词内部构词规律及外部边界信息进行分析,提出对藏文数词基本构件定义的方案。采取最优路径决策模型判断数词构件边界,然后通过有限自动机模型识别并翻译基本数词,最后用模板匹配算法处理复杂数词。结果表明,提出的方法对数词识别与翻译的F值达到98.73%,在藏汉机器翻译的测试集上的BLEU提高了2.64%。
  • 基于特征比较和最大熵模型的统计机器翻译错误检测
  • 首先介绍3种典型的用于翻译错误检测和分类的单词后验概率特征,即基于固定位置的词后验概率、基于滑动窗的词后验概率和基于词对齐的词后验概率,分析其对错误检测性能的影响;然后,将其分别与语言学特征如词性、词及由LG句法分析器抽取的句法特征等进行组合,利用最大熵分类器预测翻译错误,并在汉英NIST数据集上进行实验验证和比较。实验结果表明,不同的单词后验概率对分类错误率的影响是显著的,并且在词后验概率基础上加入语言学特征的组合特征可以显著降低分类错误率,提高译文错误预测性能。
  • 词语对齐的快速增量式训练方法研究
  • 围绕翻译模型构建流程的瓶颈——词语对齐,着手翻译模型的增量式训练。在基于无监督学习的词语对齐模型的基础上,提出一种基于初始化同时应用迭代训练收敛速度更快的onlineEM算法,以替换通常所用的batchEM算法,实现增量式训练。实验表明,所提出的方法既高效又能保证词语对齐质量和机器翻译质量。
  • 基于话题分布相似度的无监督评论词消歧方法
  • 基于话题信息、词的位置关系和互信息等特征,提出一种无监督的跨语言词义消歧算法。该算法仅利用在线词典和web搜索引擎,通过上下文信息选择评论句中多义评论词的词义。实验结果表明,所提出的词义消歧算法具有较高准确率,对于具有较多候选词义的评论词仍能表现出较好的性能。
  • 基于主题情感混合模型的无监督文本情感分析
  • 针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题,通过在LDA模型中融人情感模型,提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签,对每个词采样主题标签,无须对样本进行标注,就可以得到各个主题的主题情感词,从而对文档集进行情感分类。情感分类实验对比表明,UTSU模型的分类性能比有监督情感分类方法稍差,但在无监督的情感分类方法中效果最好,情感分类综合指标比ASUM模型提高了约2%,比JST模型提高了约16%。
  • 基于语义依存线索的事件关系识别方法研究
  • 以事件为基本语义单元,基于事件的篇章结构信息及语义特征,通过分析事件的语义依存关系及其在演化过程中的语义依存规律,提出基于语义依存线索的事件关系识别方法,实现事件语义关系的浅层检测:判定事件之间是否存在语义关系。实验结果显示,相比于传统的基于语义相似度的识别方法,新提出的基于事件语义依存线索的事件关系识别方法获得了5%的性能提升。
  • 基于社区节点重要性的社会网络压缩方法
  • 针对目前图压缩方法中存在的时间复杂度较高、依赖先验知识设定参数、需要调节的参数过多、压缩有损、忽视网络社区结构等问题,提出基于社区节点重要性的社会网络压缩方法。该方法由基于贪婪策略的社区发现算法(Gs)和社会网络压缩算法(SNC)N部分组成。GS算法采用拓扑势理论,不但可以实现社区发现,而且可挖掘出社区中的重要节点。SNC算法以网络社区为压缩对象,在保持社区间的关联关系的前提下实现了无损压缩,并可在必要时保留社区中的重要节点或基本结构。通过实验,对方法的可行性和有效性进行了验证。
  • 一种基于流形距离的中文语块聚类分析方法
  • 将中文语块分析看做词在句子内部聚类并标记语块类别的过程,建立了中文语块分析的聚类模型。首先构建词的语法功能空间,使用ISOMAP方法重构词空间的低维流形嵌入,进而考察词在低维空间中的分布情况。在使用层次聚类方法分析语块时,使用流形上的距离替代传统的欧式距离,在算法复杂度可以接受的范围内,提高了语块分析效果。
  • 适用于大规模文本处理的动态密度聚类算法
  • 针对传统的基于密度的聚类算法对海量数据处理时,存在参数输入复杂及时间复杂度高的问题,给出新的密度定义方法,并在此基础上提出一种只需一个简单输入参数就能动态识别密度不均匀聚类簇的聚类算法,同时将其扩充为可以处理海量数据的两阶段动态密度聚类算法。在人造数据集、大规模数据集以及中英文文本语料数据集上的实验表明,所提出的算法具有输入参数简单和聚类效率高的特点,可以应用于海量文本数据的聚类处理。
  • 语料库自然标注信息与中文分词应用研究
  • 以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。
  • 基于MapReduce的中文词性标注CRF模型并行化训练研究
  • 针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题,提出一种基于MapReduce框架的条件随机场模型训练并行化方法,设计了条件随机场模型特征提取及参数估计的并行算法,实现了迭代缩放算法的并行。实验表明,所提出的并行化方法在保证训练结果正确性的同时,大大减少了训练时间,效率得到较大提升。
  • 基于排序学习的文本概念标注方法研究
  • 提出一种基于排序学习的方法CRM(concept ranking model),来实现文档的维基百科概念自动标注。首先人工对一定规模的文档进行概念标注,建立训练集合,然后利用排序学习算法在多项特征上得到对概念排序的模型,利用这个概念的排序模型对任意文档进行概念标注。实验表明,相对于传统的文档概念标注方法,此方法在各类指标上都有相当大的提高,标注结果更加接近人类的概念标注。
  • 面向专利文献的汉语分词技术研究
  • 针对专利文献专业术语多、领域广的特点,采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题。利用NC-value算法抽取专业术语,使用条件随机场模型(CRF)提高专业术语识别率,提高分词精度。实验结果表明,提出的方法在开放测试下分词的准确率为95.56%,召回率为96.18%,F值为95.87%,大大提高了专利文献的分词精度。
  • 副词“都”用法自动识别研究
  • 首先对副词“都”分别进行基于规则和基于统计两种方法的用法自动识别研究,并具体分析它们的优点和不足,然后尝试了规则与统计相结合的方法。3种方法的准确率分别为82%,89.62%和98.54%,实验数据表明,采用规则和统计相结合的方法使副词“都”用法的自动识别取得较好的效果。
  • CCF自然语言处理与中文计算会议(NLP&CC2012)简介
  • 自然语言处理与中文计算会议(NLP&CC)是中国计算机学会(CCF)主办的CCF中文信息技术专业委员会年度学术会议,专注于自然语言处理及中文计算领域的学术与应用创新。NLP&CC与国际同类会议(如ACL等)在组织方式上接轨,致力于推动该领域学术界和工业界研究、创新与应用的发展,成为具有国际影响力的学术与创新交流平台。第一届自然语言处理与中文计算会议(NLP&CC 2012)由CCF中文信息技术专业委员会、北京大学和微软亚洲研究院承办,2012年10月31日至11月5日在北京成功举行。
  • [研究论文]
    汉语并列复句的自动识别方法(吴云芳[1] 石静[1] 万富强[1] 吕学强[2])
    基于逗号的汉语子句识别研究(李艳翠[1,2] 冯文贺[3] 周固栋[1] 朱坤华[2])
    属性和属性值组合的概念模板(程显毅[1] 施佺[1] 沈学华[1] 田宇贺[2])
    汉语并列关系的识别研究(郑略省 吕学强 刘坤 林进)
    汉语句类依存树库的构建研究(王慧兰)
    基于协同图排序的对比新闻自动摘要(黄小江 万小军 肖建国)
    面向自动文摘的主题划分方法(童毅见 唐慧丰)
    版式电子文档表格自动检测与性能评估(房婧[1] 高良才[1] 仇睿恒[1,2,3] 汤帜[1])
    基于笔端形状相似性的汉字字体识别(王晓[1,2] 吕肖庆[1] 汤帜[1,2])
    甲骨文字形动态描述库及其字形生成技术研究(栗青生[1,2,3] 吴琴霞[2,3] 杨玉星[2,3])
    藏文音节规则模型及应用(珠杰[1,2] 李天瑞[1] 格桑多吉[2] 仁青诺布[2] 乔少杰[1])
    藏文数词识别与翻译(孙萌[1,2] 华却才让[3] 刘凯[1] 吕雅娟[1] 刘群[1])
    基于特征比较和最大熵模型的统计机器翻译错误检测(杜金华 王莎)
    词语对齐的快速增量式训练方法研究(罗维)
    基于话题分布相似度的无监督评论词消歧方法(郭瑛媚 史晓东 陈毅东 高燕)
    基于主题情感混合模型的无监督文本情感分析(孙艳 周学广 付伟)
    基于语义依存线索的事件关系识别方法研究(马彬 洪宇 杨雪蓉 姚建民 朱巧明)
    基于社区节点重要性的社会网络压缩方法(李泓波[1] 张健沛[1] 杨静[1] 白劲波[2,3] 初妍[1] 张乐君[1])
    一种基于流形距离的中文语块聚类分析方法(雷霖[1] 熊伟[1] 景宁[1] 肖建夫[2])
    适用于大规模文本处理的动态密度聚类算法(李霞[1,2] 蒋盛益[2] 张倩生[2] 朱靖[2])
    语料库自然标注信息与中文分词应用研究(饶高琦 修驰 荀恩东)
    基于MapReduce的中文词性标注CRF模型并行化训练研究(刘滔 雷霖 陈荦 熊伟)
    基于排序学习的文本概念标注方法研究(涂新辉[1,2] 何婷娉[1,2] 李芳[1,2] 王建文[1,2])
    面向专利文献的汉语分词技术研究(岳金媛 徐金安 张玉洁)
    副词“都”用法自动识别研究(张静杰 昝红英)
    CCF自然语言处理与中文计算会议(NLP&CC2012)简介
    《北京大学学报:自然科学版》封面
      2010年
    • 01
      2008年
    • 01