題 目:正則表達(dá)在語(yǔ)言數(shù)據(jù)處理中的應(yīng)用
時(shí) 間:2025年12月25日(星期四)9:00
主講人:吳鋒文
地 點(diǎn):文獻(xiàn)所336教室
主辦單位:漢語(yǔ)言文獻(xiàn)研究所
主講人簡(jiǎn)介:吳鋒文,語(yǔ)言學(xué)博士,四川外國(guó)語(yǔ)大學(xué)中國(guó)語(yǔ)言文化學(xué)院教授。研究興趣涉及漢語(yǔ)語(yǔ)法、中文信息處理、詞匯語(yǔ)義學(xué)及數(shù)字人文。
講座簡(jiǎn)介:
本報(bào)告聚焦正則表達(dá)式在語(yǔ)言數(shù)據(jù)處理的應(yīng)用,旨在為語(yǔ)言學(xué)研究者提供高效處理語(yǔ)言(含古代漢語(yǔ))文本數(shù)據(jù)的實(shí)用方法與技巧。首先從正則表達(dá)式的基礎(chǔ)概念入手,闡明其在海量語(yǔ)言數(shù)據(jù)中實(shí)現(xiàn)精準(zhǔn)定位、批量操作的核心優(yōu)勢(shì),可大幅提升數(shù)據(jù)處理效率與準(zhǔn)確性;深入解析正則表達(dá)式的靈魂——元字符(匹配符、量化符、定位符)的核心功能與組合邏輯,為實(shí)操應(yīng)用筑牢基礎(chǔ);并結(jié)合文本檢索與數(shù)據(jù)清洗兩大核心實(shí)操場(chǎng)景,具象化應(yīng)用方法;最后通過(guò)漢語(yǔ)語(yǔ)法(如提取“把”“被”字句、關(guān)聯(lián)標(biāo)記)、古代漢語(yǔ)(如統(tǒng)計(jì)古籍虛詞頻次)的典型案例,完整呈現(xiàn)其在語(yǔ)言學(xué)研究中的高效應(yīng)用路徑,助力語(yǔ)言研究者快速掌握這一提升科研與教學(xué)效率的關(guān)鍵工具。
1.初識(shí)正則表達(dá)式;
2.正則表達(dá)式的靈魂:元字符;
3.文本檢索與數(shù)據(jù)清洗;
4.場(chǎng)景典型案例評(píng)析。