台語聲調群剖析器簡介

台語聲調群剖析器簡介

語音輸出系統是和計算語言學相關的應用軟體。台語語音輸出系統由三個主要元件構成：台語聲調群剖析器、語音引擎及語音合成器。一般而言，語音引擎及語音合成器的設計比較偏重程式技巧。聲調群剖析器則仰賴語言知識的轉換，也就是人工智能的展現方法。語言學家Elisabeth Selkirk 認為韻律結構（prosodic structure）被用來做為語音和語法的媒介。這種現象在台語尤其明顯。台灣人的小孩在學習母語的過程中，經由變調所形成的聲調群來習得語法結構方面的知識，並且在腦海裡逐步建立一個高效率的語詞變調處理機制，也就是聲調群剖析器。因此在過去的十多年裡，我們一直試圖建立一個符號系統做為將語言專業知識（Language expertise）和經驗（ heuristic knowledge）轉換為知識庫的重要工具。同時應用知識表徵方法（Knowledge representation method）來建構人工的聲調群剖析器。

符號系統的設計概念,是在早期制定或修改變調規則的過程中所衍生的創意。原則上符號系統必須能夠讓語言學家方便且有效地進行語詞標記，所以必須精確定義每一組符號，並建立準則（criteria）和標記程序。然而在建構聲調群剖析器的過程中往往必須經由不斷地測試->修正->回饋->測試（Testing->modify->feedback->testing）循環，才能提高語詞變調正確率。因此，在修正階段會新增標記符號（token）或修改標記符號的定義來配合現有的規則，也可能新增或修改規則來配合標記符號。

目前我們所建立的符號系統是以預設調型default tone form）、預設詞類（default POS ）和模式（mode）三種標記組成。知識庫內的每個語詞或詞組都賦予一組包含這三種語詞標記屬性（attribute）的符號。處理台語變調時，藉著這組符號並協同以規則為基礎的變調處理器（Rule-based sandhi processor），便能將句內語詞賦予正確的調值。即使像例句（1）和（2）的 ti7 和 be2 ，系統也能針對相同語音，不同語義的語詞或多詞類（multiple-POS）語詞推論出正確的詞類，予以定調。
（1）Ti7 （筷子，名詞，讀本調） khng3 ti7 （在，介系詞，讀變調） uann2-na5-a2 lai7.
（2）Tsit tsiah be2 （馬，名詞，讀本調） be2 （買，動詞，讀變調） beh kah goo7-ban7.

然而符號系統也無法處理某些語詞定調的問題。例如，本調相同的「ke（雞/加）」在（3）和（4）裡，有不同的調型、詞類（POS）和語義。
（3）Tsit tsiah（變調）ke（本調，名詞）tsit8 kong kin.（這隻雞重一公斤。）
（4）Tsit tsiah（本調）ke（變調，動詞）tsit8 kong kin.（這隻雞多重一公斤。）
這個例句讓我們注意到人腦雖然可以就台語同音異形漢字「雞/加」和語境來分析語義和句法結構，但是對電腦而言，（3）和（4）完全相同，只有自主語義（Autonomous semantic mapping）確定以後，才能決定「ke」的調型或進行句法分析。這部分屬於強人工智能（Strong AI）的範疇，也是對話系統必須面對的困境。

無論如何，這種應用語言學理論建構台語聲調群剖析器的方法，在實務上是以知識工程技術來模擬語言習得的實驗環境。不僅能驗證人工智慧發展工具可以協助我們了解語言習得的過程，也顯示人類的語言不但是溝通的工具，也是一種思考模式。從台語變調衍生的的聲調群不只是獨特的韻律單位，也是渾然天成的句法結構。經由實作證明，使用台語作為媒介語，並應用台語聲調群作為語義和語法單位來建立多語言(例如台、日、中、英等語言)的語料庫(corpus) 就能提高各種語言間的翻譯正確率。台語聲調群可以說是人類語言的瑰寶。我們誠摯地希望有更多人來參與台語聲調群的研究。這個開發中的台語聲調群剖析器包含知識庫和可在Windows XP/Win7 作業系統操作的程式（ZIP檔案）可從本網頁下載，提供學術研究者評估測試使用。

下載台語聲調群剖析器(如果無法順利下載,請用e-mail 與作者聯繫)

下載IJCLCLP相關論文

[ 研究日誌記事摘要 | 程式作品 | 中文作品 | 台語作品 | 台語語音筆記本 | 已發表論文 ]