国产精品人人爱一区二区白浆_国产我不卡午夜伦理_免费电影亚洲一级黄片_国产午夜福利久久_51视频在线观看免费国产_天堂AV网手机版_国产精品毛片一区二_印度女人性液_日韩大片91免费观看视频播放_日本欧美国产精品第一页久久

語料庫是語言知識的可靠來源_世聯(lián)翻譯公司

首頁 > 新聞中心 > 行業(yè)新聞 >

語料庫是語言知識的可靠來源

首先祝賀第三屆漢語中介語口語語料庫國際會議在北京召開。漢語中介語口語語料庫是獲取語言知識,發(fā)現(xiàn)語言偏誤,提高語言習(xí)得水平的重要手段。  我是一個自然語言處理的研究者,早在1957年,我就對于語言研究的發(fā)生了濃厚的興趣,夢想著打破人類的語言障礙,后來我知道了美國在1954年就研制成功俄英機器翻譯,受到極大的鼓舞,決心投身機器翻譯研究,實現(xiàn)自己的科學(xué)夢想。1979年-1981年我在法國格勒諾布爾理科醫(yī)科大學(xué)留學(xué)時,曾經(jīng)研制過一個把漢語自動地翻譯為法語、英語、日語、俄語和德語5種外語的機器翻譯系統(tǒng),叫做FAJRA系統(tǒng),提出了多叉多標記樹形圖模型(multiple-branched and multiple-labeled tree model, MMT),這是一個基于短語的機器翻譯模型(phrase-based machine translation, PBMT)。
當(dāng)時我采用的方法,是基于語言規(guī)則的理性主義方法。我用了3年時間,編寫了漢語分析規(guī)則5000條左右,法語、英語、日語、俄語和德語的轉(zhuǎn)換規(guī)則和生成規(guī)則各3000條左右,一共20000多條規(guī)則,此外,我還編制了若干部機器可讀的、代碼化的機器翻譯詞典,由于工作量大,我每天工作時間都超過10小時,扎扎實實苦干了3年,于1981年11月在IBM 4341大型計算機上輸出了法語、英語、日語、俄語和德語等5種語言的機器翻譯譯文。這是世界上第一個把漢語自動地翻譯成多種外語的機器翻譯系統(tǒng)。  這個系統(tǒng)研制成功之后,在有限規(guī)模的語言范圍內(nèi),翻譯的正確率還比較高,而當(dāng)擴大語言范圍時,對于任意的漢語句子,翻譯的正確率只能達到70%左右,這樣的機器翻譯系統(tǒng)顯然是難以實用的。我在1982年回國之后,又相繼研制了法漢、英漢、日漢和德漢機器翻譯系統(tǒng),翻譯正確率都沒有超過70%�! ∥液馁M了如此巨大的精力,卻得到了很不理想的結(jié)果,在嚴峻的考驗面前,我在少年時代的機器翻譯夢想遭到了挫敗。我沒有得到多少成功的經(jīng)驗,卻留下了大量失敗的教訓(xùn)。我為此感到困惑,有一種難言的失落感�! ≌�(dāng)我愁眉不展之際,1993年7月在日本神戶召開的第四屆機器翻譯高層會議(MT Summit IV)上,英國著名學(xué)者哈欽斯(J. Hutchins)在他的特約報告中指出,自1989年以來,機器翻譯的發(fā)展進入了一個新紀元。這個新紀元的重要標志是,在基于規(guī)則的技術(shù)中引入了語料庫方法。這種建立在大規(guī)模(large-scale)真實文本(authentic text)處理基礎(chǔ)上的機器翻譯,是機器翻譯研究史上的一場革命,它會把自然語言的計算機處理推向一個嶄新的階段�! “颜Z料庫方法引入到機器翻譯中,改變了機器翻譯翻譯研究者獲取知識的手段,由于語料庫是大規(guī)模的真實文本,人們就可以得到更加完善的統(tǒng)計性的語言知識,因此,也就大大地提高了機器翻譯的質(zhì)量,加快了機器翻譯系統(tǒng)的研制周期�! ≌Z言知識究竟在哪里?語言知識固然存在于語法書里,存在于各種類型的詞典里,存在于汗牛充棟的語言學(xué)論文里,但是,更加全面的、更加客觀的語言知識應(yīng)當(dāng)存在于大規(guī)模的真實文本語料庫里,語料庫是語言知識最可靠的來源�! ≌Z料庫改變了機器翻譯的命運,基于短語的機器翻譯發(fā)展成為統(tǒng)計機器翻譯( statistical machine translation,SMT),機器翻譯走向了商品化和實用化的新階段。  隨著互聯(lián)網(wǎng)的迅速發(fā)展,我們進入了大數(shù)據(jù)時代。數(shù)據(jù)挖掘成為計算機科學(xué)的一個重要研究領(lǐng)域,數(shù)據(jù)挖掘中采用的機器自動學(xué)習(xí)的方法,對于統(tǒng)計機器翻譯具有重要的價值�! C器自動學(xué)習(xí)的方法主要有三種類型:有指導(dǎo)的學(xué)習(xí)、無指導(dǎo)的學(xué)習(xí)、半指導(dǎo)的學(xué)習(xí)。  有指導(dǎo)的學(xué)習(xí)實際上是對于數(shù)據(jù)進行分類,首先使用事先定義好的類別或范疇標記對于數(shù)據(jù)的實例進行標注,作為訓(xùn)練數(shù)據(jù),機器根據(jù)這些標注好的訓(xùn)練數(shù)據(jù)進行自動學(xué)習(xí),再根據(jù)學(xué)習(xí)得到的知識對于新的數(shù)據(jù)進行分類。由于用來學(xué)習(xí)的訓(xùn)練數(shù)據(jù)是用事先定義好的標記進行過標注的,機器學(xué)習(xí)的過程是在這些訓(xùn)練數(shù)據(jù)的指導(dǎo)下進行的,所以叫做有指導(dǎo)的學(xué)習(xí)�! ≡跓o指導(dǎo)的學(xué)習(xí)中,用來學(xué)習(xí)的數(shù)據(jù)沒有使用事先定義好的類別或范疇標記進行過標注,要使用機器學(xué)習(xí)的算法來自動地發(fā)現(xiàn)隱藏在數(shù)據(jù)中的特征、結(jié)構(gòu)或規(guī)律。這種無指導(dǎo)學(xué)習(xí)的一個關(guān)鍵技術(shù)是聚類,聚類技術(shù)根據(jù)數(shù)據(jù)實例的相同點或相異點,自動地把它們聚類為不同的組合�! ∮兄笇�(dǎo)的學(xué)習(xí)要求事先人工標注大量的數(shù)據(jù)實例,需要付出巨大的人工的勞動量,費力而又費時,為了減少人工標注的勞動量,可以同時從標注過的數(shù)據(jù)實例和沒有標注過的數(shù)據(jù)實例中進行學(xué)習(xí),標注過的數(shù)據(jù)實例的集合可以比較小,而沒有標注過的數(shù)據(jù)實例的集合可以很大,這樣的模型叫做半指導(dǎo)的學(xué)習(xí)�! C器自動學(xué)習(xí)的這些方法已經(jīng)成熟,而且廣泛地應(yīng)用于統(tǒng)計機器翻譯的研究中,這就從根本上改變了傳統(tǒng)的獲取語言知識的手段,從大規(guī)模的雙語對齊語料庫中,通過機器自動學(xué)習(xí)的方法,去獲取語言的翻譯信息,對于機器翻譯的發(fā)展具有革命性的意義。  目前,基于多層神經(jīng)網(wǎng)絡(luò)的、以大數(shù)據(jù)作為輸入的深度學(xué)習(xí)(deep learning)方法引入到機器翻譯中。這是一種新型的機器自動學(xué)習(xí)。深度學(xué)習(xí)的訓(xùn)練方式是無監(jiān)督的特征學(xué)習(xí),使用多層神經(jīng)網(wǎng)絡(luò)的方法。這種多層神經(jīng)網(wǎng)絡(luò)是非線性的,可以重復(fù)利用中間層的計算單元,減少參數(shù),計算機從海量的大數(shù)據(jù)中可以自動地產(chǎn)生模型的特征和算法�! ≡~向量是多層神經(jīng)網(wǎng)絡(luò)的一種重要方法,詞向量把單詞映射為一個固定維度的向量,不同的詞向量構(gòu)成詞向量語義空間,在這個詞向量語義空間中,語義相似的單詞距離較近。  深度學(xué)習(xí)研究者米克羅夫(Tomas Mikolov)發(fā)現(xiàn),如果用“意大利”這個單詞的屬性向量來減去“羅馬”這個單詞的屬性向量,再加上“巴黎”這個單詞的屬性向量,我們就能得到“法國”這個單詞或者相近的屬性向量。類似地,如果用“國王”的屬性向量減去“男人”的屬性向量,再加上“女人”的屬性向量,就能得到“王后”的屬性向量。這非常令人振奮的結(jié)果,因為米克羅夫事先并沒有刻意地做這樣的安排�! �2007年以來,采用深度學(xué)習(xí)的方法,以大規(guī)模的雙語對齊的口語語料庫作為語言知識的來源,從雙語對齊的口語語料庫中獲取翻譯知識,統(tǒng)計機器翻譯又進一步發(fā)展成了神經(jīng)機器翻譯(neural machine translation, NMT),口語神經(jīng)機器翻譯正確率已經(jīng)超過了 90%,針對日�?谡Z的神經(jīng)機器翻譯基本上已經(jīng)可以付諸實用了。
但是,在這種神經(jīng)機器翻譯中,語言之間的翻譯細節(jié)還是一個黑箱(black box),盡管翻譯的結(jié)果不錯,我們對于其中的語言處理機制仍然是不清楚的,在語言學(xué)理論上,我們還難以做出科學(xué)的解釋。  最近,深度學(xué)習(xí)向神經(jīng)網(wǎng)絡(luò)中融入了記憶機制,把基于理性主義的知識驅(qū)動與基于經(jīng)驗主義的數(shù)據(jù)驅(qū)動結(jié)合起來,架起了符號主義與聯(lián)接主義之間的橋梁。這應(yīng)當(dāng)是今后神經(jīng)機器翻譯發(fā)展的新方向。  可以看出,由于在機器翻譯中引入了語料庫技術(shù),已經(jīng)獲得了巨大的進步,這是令人可喜的。不論是書面語文本語料庫還是口語語料庫,都是機器翻譯得以發(fā)展進步的關(guān)鍵性因素。語料庫對于機器翻譯的發(fā)展具有舉足輕重的作用�! ∧壳�,漢語中介語語料庫建設(shè)已經(jīng)取得了很大的成績。北京語言大學(xué)、南京師范大學(xué)、魯東大學(xué)、暨南大學(xué)、中山大學(xué)、上海交通大學(xué)、廈門大學(xué)、臺灣師范大學(xué)先后建立了不同規(guī)模的漢語中介語語料庫。香港中文大學(xué)、新疆醫(yī)科大學(xué)還建立了漢語口語習(xí)得語料庫�! ≡谶@些中介語語料庫的基礎(chǔ)上,研究者們進行了卓有成效的研究,成果斐然。第三屆漢語中介語口語語料庫國際會議為交流這些成果提供了一個很好的交流機會,我衷心祝賀這次國際會議成功。
世聯(lián)翻譯-讓世界自由溝通!專業(yè)的全球語言翻譯供應(yīng)商,上海翻譯公司專業(yè)品牌。絲路沿線56種語言一站式翻譯與技術(shù)解決方案,專業(yè)英語翻譯、日語翻譯等文檔翻譯、同傳口譯、視頻翻譯、出國外派服務(wù),加速您的全球交付。 世聯(lián)翻譯公司在北京、上海、深圳等國際交往城市設(shè)有翻譯基地,業(yè)務(wù)覆蓋全國城市。每天有近百萬字節(jié)的信息和貿(mào)易通過世聯(lián)走向全球!積累了大量政商用戶數(shù)據(jù),翻譯人才庫數(shù)據(jù),多語種語料庫大數(shù)據(jù)。世聯(lián)品牌和服務(wù)品質(zhì)已得到政務(wù)防務(wù)和國際組織、跨國公司和大中型企業(yè)等近萬用戶的認可。