翻譯服務

 口譯服務

 網站翻譯

 翻譯報價

 行業翻譯

MT Summit VII(大翻譯時代的機器翻譯——MT in the great translation era

1999913——17日,新加坡Kent Ridge Digital Labs

會議論文集由機器翻譯亞太聯合會(AAMT)出版。

論文集共653頁(是上一屆會議論文集的2倍多)

 

機器翻譯:回顧與展望

 

John Hutchins

Univ. of East Anglia, Norwich UK

[email protected]

 

(此文發表在MT Summit VII,標題為 Retrospect and prospect in computer-based translation

 

摘要:在本世紀最后一次機器翻譯高峰會議上,本文將簡要回顧過去50年以來,從機器翻譯誕生開始到現在所發生的事情,評價目前的狀況,并預測會有一個怎樣的未來。計算機翻譯的基本過程并沒有像計算機技術和軟件的發展那樣發生巨大變化。對于改善機器翻譯輸出的語言質量而言,仍然大有文章可作。對此基于規則方法和基于語料庫方法的機器翻譯都充滿希望。對未來機器翻譯前景的影響可能來自對在線實時多語交際的巨大需求。在這方面,質量也許不如易得性和可用性更重要。

 

1. 機器翻譯:頭40年,1949 - 1989

 

也就是在50年前,Warren Weaver寫下了他的著名的有關啟動機器翻譯研究的備忘錄。這方面的研究首先在美國出現,而到50年代末則在全世界發展起來了。這還不是提到機器翻譯的最早時間。事實上,早在19473月,Weaver就曾經寫信給Norbert Wiener談論此事。而Andrew BoothRichard Richens1948年也已經做了一些嘗試性的實驗。

在那些早期歲月,以及后來的許多年中,計算機跟我們今天所熟悉的東西可不一樣。那時的計算機個頭大的驚人,要放在帶有加強地板和通風系統的大房間里以便散熱,并且價格昂貴。此外還需要一大幫維修人員和盡職盡責的操作人員和程序員圍著它團團轉。大多數工作進行數學計算,或者為軍方服務,或者為大學物理系和應用數學系的軍方項目服務。當時的機器翻譯很自然地是得到軍方支持,同時也就是為了翻譯軍事情報而研制的。比如在美國是俄——英機器翻譯,而在蘇聯則是英——俄機器翻譯。

盡管在50年代和60年代機器翻譯吸引了相當可觀的資金,尤其是軍備競賽在1957年蘇聯第一顆人造地球衛星上天以及1961Gagarin駕駛太空飛船航天飛行成功后進入白熱化階段更是如此,但這段時間的結果卻令人失望。到1966ALPAC報告(ALPACAutomatic Language Processing Advisory Committee語言自動處理咨詢委員會的縮寫,這個機構是美國科學院19644月成立的)發表后,機器翻譯在美國進入低谷時期。機器翻譯研究者碰到的語言問題比他們預想的要多得多。這使得人們回憶起差不多5年前,一位機器翻譯的熱心人Bar Hillel曾經發表的一個有關機器翻譯的批評性的評論。在那篇文章中,他拒絕所謂的FAHQT(全自動高質量的翻譯)這樣的理想目標——事實上,他提出了一個所謂的“不可能性”的證明——同時他提倡開發基于計算機的翻譯系統,為人類譯員提供幫助,即所謂的“人機共生”環境。ALPAC報告的作者同意上述診斷,并建議有關FAHQT的機器翻譯研究應該停止,研究人員的注意力應該轉向為翻譯人員提供水平比原來所定的高目標要低一些的輔助系統。

ALPAC發表之后的若干年,機器翻譯研究仍在繼續,但規模大不如從前了。到70年代中期,機器翻譯研究取得了這樣一些成果:1970年開始美國空軍開始使用Systran[1]系統來作俄——英機器翻譯;1976年加拿大開始用Meteo[2](氣象)機器翻譯系統翻譯氣象預報;歐共體購買了Systran系統的英——法版來幫助減輕它的翻譯負擔,此后其他歐洲語言的機器翻譯系統開發也就接踵而來了。在80年代,機器翻譯從后ALPAC的沉郁氣氛中開始復蘇,世界范圍內的機器翻譯研究活動又重新抬頭——特別是在日本——新的研究思想(比如基于知識的和基于中間語言的系統等),新的資金支持(歐盟、計算機公司等),以及市場上首次出現的商用機器翻譯系統等,都顯示出機器翻譯進入了一個嶄新的發展新階段。

但是,80年代的機器翻譯復興仍然是把注意力幾乎都集中在了人助自動翻譯上,人助工作包括譯前編輯(或受限語言),翻譯期間的交互式解決問題,譯后編輯等。而開發基于計算機的輔助翻譯或“工具”仍然被相當程度地忽視了——盡管Alan Melby1982)和Martin Kay1980)為此鼓吹呼吁。

80年代幾乎所有的研究活動都致力于在傳統的基于規則和“中間語言”模式的基礎上進行語言分析和生成方法的探索——這些方法都伴有人工智能類型的知識庫,表現了更具創新性的潮流。譯員的需要讓位于商業興趣:術語管理軟件出現(例如Mercury/TermexALPNET80年代上市了一系列翻譯家工具,其中還包括“翻譯記憶庫”(Translation Memory)的早期版本。這是事先翻譯好的雙語對齊文本庫。

 

2.  90年代的機器翻譯

 

真正的翻譯家助手出現在90年代早期,即所謂的“翻譯工作站”(Translation Worksation),比如Trados公司的Translator Workbench,IBM公司的TranslationManager/2,STAR Transit,Eurolang Optimizer等;旌狭藦碗s的文本處理和出版軟件,術語管理以及翻譯記憶庫等。

90年代早期,機器翻譯研究被新興的基于語料庫的方法向前推進著,比如統計方法的引入(IBM公司的Candide計劃),以及基于實例的機器翻譯等。統計技術為先前獨用的基于規則的方法帶來了解放。消歧問題,代詞指代以及更多的慣用法生成問題等,都由于基于語料庫技術的應用而有了解決的希望。統計方法跟基于規則的方法一樣也不能提供更多答案,但是跟10年前相比,現在提高輸出譯文質量的希望似乎更大一些了。正如許多觀察家已經指出的,最有前途的方法可能是整合了基于規則和基于語料庫的方法,F在許多商用機器翻譯系統正在集成翻譯記憶庫,而許多翻譯記憶庫則正在被機器翻譯方法所加強。

90年代的最主要特征是機器翻譯和翻譯工具的使用迅速增加。商業和信息的全球化使得對翻譯的需求日益增加。這不僅意味著跨國公司的機器翻譯應用會持續增長,而且可以幫助產生高質量譯文的系統的翻譯服務也得到了廣泛應用。直到最近,譯文生成已經基本被看作是一個獨立的活動。對大用戶來說,翻譯系統的引入已經促成了翻譯和文件處理(技術寫作和出版)的整合(參見 Hutchins 1998)。翻譯現在已經被看作是信息交流過程中的一個階段。這一市場的未來產品將不是分離的獨立的機器翻譯系統,翻譯家工作站以及翻譯工具等,而是多語文本處理軟件,混合了文檔創建、翻譯和修訂,文件歸檔,信息分析,檢索和文摘等等功能。在一個集成環境中,公司的特別要求很容易得到適合的技術支持。

 

3.  機器翻譯的質量

 

10年的機器翻譯新方法并沒有從根本上提高機器翻譯系統的譯文質量。這些提高也許會在將來出現,但總而言之必須承認目前的機器翻譯并沒有產生比70年代的機器翻譯系統有重大進步的質量提高。我們仍然能看到同樣的錯誤:錯誤的代詞,錯誤的介詞,斷章取義的句法,不正確的選詞,單復數混淆,錯誤的時態等等。這些錯誤都是人類翻譯者從未犯過的錯誤。

盡管系統仍然保持著研究原型,糟糕的質量還是有公眾影響。但當商業系統產生質量粗劣的譯文時,整個機器翻譯界就籠罩在一片陰影之中。大型的基于PC的機器翻譯系統目前的市場定位是面向翻譯人員和一般公眾。這樣的系統代表了目前機器翻譯的“公眾形象”。也正是這些系統,不得不為其辯護以求得諒解。對一般公眾而言,宣傳有許多大公司正在生產成功的和合算的機器翻譯系統也用處不大。而宣傳為“信息目的”研制的質量粗糙的翻譯不重要,肯定也不能令人滿意——我們能說臨時用戶的需求不是回事兒嗎?但另一方面,如果我們希望商業系統在未來會有所提高,也無助于事 —— 特別是如果我們不能指出研究界會有什么特別的進展的話。為此,我們發現我們自己必須采取防衛的姿態。我們必須解釋為何機器翻譯對計算機而言如此困難,以及消除那些認為用戶(無論新老)總是會熱情地撲進我們懷抱的機器翻譯“狂熱者”的叫囂為何如此困難。

不幸的是,這種狀況將可能在可見的將來沒有多大改變。目前沒有什么跡象顯示機器翻譯的質量在未來幾年內會有重大進展?赡馨l生的事情是機器翻譯自身將在公眾中更為大家所熟悉,這樣質量將不再是一個重要的問題。另一方面,熟悉可能導致輕視,整個機器翻譯界可能會受到公眾長時間的責難。這對研究和開發商都會帶來潛在的有害的后果。

盡管我們會希望機器翻譯引擎的最終改進,但目前最現實的選擇是腳踏實地地改變機器翻譯的形象。它不再是所謂人們翻譯的“解決方案”,而應該被視作一個“有用的助手”,可以幫助那些不是翻譯家的人獲取或傳播信息。目前,太多的產品是作為“解決方案”而不是作為“助手”來銷售的。在理想的情況下,我們希望能阻止商家銷售它們作了誤導宣傳的產品,但在現實生活中,作為一個組織——這里我是指IAMT(機器翻譯國際聯合會International Association for Machine Translation)以及它的三個地區性的協會——它所能做的只是“教育”消費者和購買者。第一步要做的是樹立產品認證觀念;第二步可能是一些公正的權威的消費者測試;但總而言之,目標應該是有關機器翻譯和翻譯工具是什么的信息能夠得到廣泛傳播 —— 它們能做什么以及不能做什么 ——尤其是在那些對公眾觀念極具影響力的人物中間進行宣傳。

 

4.  機器翻譯與因特網

 

因特網的影響已經在近幾年表現得日益顯著。我們已經看到實時在線翻譯正以加速度方式迅速發展,我們也已經看到許多專門針對Web頁面和電子郵件的翻譯。對即時翻譯的需求確實在持續地增長。但同時用戶也的確在期待有更好的翻譯結果。很明顯,對翻譯系統最迫切的需求特別來自因特網上口語類型的信息(這里包含著錯誤形式以及不好的拼寫等問題)。傳統的基于語言學規則的方法很可能不能適應這樣的任務,而基于語料庫的方法利用在因特網上可以得到的海量數據顯然是適合的。但對這類系統仍有很多研究工作需要做。

在我們看到對“劣質的”翻譯的需求日益增加的同時,因特網還提供了途徑,為個人以及小型公司帶來更快捷的有質量的翻譯。許多機器翻譯系統廠商正提供翻譯服務,通常通過后編輯來實現所謂的“增值”。

但是,因特網對改變機器翻譯的未來前景還有深刻的影響。人們預測獨立的帶有一大堆軟件的PC將被能夠從網上下載程序的網絡計算機取代。在這種情形下,一次性地購買機器翻譯系統,詞典的模式將被遠程機器翻譯商店的模式取代,用戶根據實際使用情況付費。不用說,這些變化將深刻地影響機器翻譯的開發模式和市場定位。很可能發生的事情是按需求下載的機器翻譯軟件將不完全取代個人軟件包的銷售,但將引入市場的進一步拓展 —— 就如廉價的PC翻譯軟件沒有取代老的更實際的產品而是拓展了潛在的購買者和機器翻譯用戶那樣。

因特網的另一個深刻影響將是軟件本身的特性。因特網服務的用戶正在尋找的是有可能用任何語言承載的信息 —— 翻譯是獲取信息的一種途徑。用戶將希望有一個信息的無縫整合系統,包括信息搜索,信息抽取以及帶有翻譯功能的文摘系統。

事實上,在未來恐怕很少會有“純的”的翻譯系統,更多的將是基于計算機的工具合應用程序,其中自動翻譯僅僅是一個組成成分(功能模塊)。

 

5.  口語翻譯

 

下一個10年可以預測發展最廣泛的是口語翻譯。目前的研究項目(ATR、C-STAR、JANUS、Verbmobil等等)都是在80年代末和90年代初開始的。實際應用在下個世紀前可能不現實。這些系統都限制在小領域中。

不管期望值多么高,再用20年時間或更長,出現實用的,面向非受限領域的口語機器翻譯都是不可能的。比較實際的情況應該是受限領域的應用,比如財經和股票市場數據的查詢系統,商業談判的交互式系統,公司內部交際系統等等。

 

6.  機器翻譯與人類翻譯

 

在過去,人類專業翻譯人員跟那些鼓吹和研究機器翻譯的人之間多少有些關系緊張。但是現在,在20世紀就要結束的時候,機器翻譯和人類譯員能夠而且將要在一種和諧的關系下共存。人類譯員的技能總是有需求的。

要讓譯文達到出版質量,人類翻譯和機器翻譯各自可以發揮自己的作用。機器翻譯對大規模的以及對速度要求較高的并且比較枯燥的技術文章的翻譯任務而言,是很劃算的選擇。此外,那些包含大量重復勞動的翻譯任務,比如軟件手冊的本地化,機器翻譯也有優勢。利用計算機作為翻譯助手所花費的成本顯著地低于只用人類譯員所需成本。相比之下,人類譯員對非重復性的語言上很復雜的文本(例如文學和法律文本)的翻譯,是(并且仍將是)很重要的。甚至是對那些一次性的專業領域的技術文本也是如此。

對那些輸出結果的質量不是很重要的文本翻譯而言,機器翻譯通常是比較理想的解決方案。例如,產生“粗糙”的科學和技術文檔的譯文,只有一個人,他僅僅是想了解這個文件的一般內容和信息,而不關心是否譯得漂亮,那么機器翻譯肯定會越來越受到這類用戶的接受?傊,人類譯員不是為產生粗糙譯文準備的。跟機器翻譯相對比的不是人類譯員,而是什么翻譯都沒有。

但是,正如已經提到的那樣,對“糟糕劣質”的譯文越熟悉,不可避免地,就會刺激對只有人類譯員才會滿意的高質量譯文的需求。

對于一對一的信息交流來說,可能總是人類譯員在扮演中介角色,例如,在商業聯系的翻譯中(尤其內容比較敏感或受到法律約束的)。但對個人信件的翻譯,機器翻譯系統可能使用率會越來越高,此外,對電子郵件,網頁的信息摘要,以及基于計算機的信息服務等,機器翻譯可能是唯一合適的解決方案。

對于口語翻譯,人類譯員肯定總有市場。盡管我們可以在一些高度受限的領域想象口語機器翻譯的應用(例如“電話查詢,telephone enquiries,銀行交易,計算機輸入,發布機器指令等),但在不受限制的領域以及個人實時交際中,口語機器翻譯似乎不可能有多少作用。

最后,機器翻譯正在進入那些人類譯員從未涉足的領地:為那些以外語寫作的作者生成草稿,這些人需要幫助生成一個。電視字幕的實時在線翻譯;數據庫信息翻譯,此外,毫無疑問的是,越來越多的這類新的應用會在未來全球通信網絡擴張以及機器翻譯的實際使用為更多的公眾所熟悉的情況下更為普及。

 

7.  總結

 

在過去的10年,我們已經看到了機器翻譯系統和翻譯工具的銷售和應用在快速發展,同時我們也看到用計算機來進行翻譯工作進入到通信和語言處理的許多其他領域,這方面的發展出現了一些新的令人興奮的開端。這些都是機器翻譯研究在健壯成長的信號。在我們進入20世紀的最后時刻,又逢本世紀最后一次機器翻譯高峰會議之際,我們能夠回首前塵,對于那些充實的成就——或許沒有我們期望的那樣發展迅速,但仍然是相當可觀的。我們無法預測機器翻譯研究和翻譯工具在下一個世紀將是怎樣的一個面貌。但有一件事情可以預言。那就是21世紀的第一次機器翻譯高峰會議將于20019月在西班牙Santiago de Compostela舉行。


 

《我國機器翻譯走過的40年》

 

劉涌泉 (中國社科院語言所研究員)

此文刊登在《計算機世界》1999104日“專家視點”(C1版)欄目

 

(一) 我國首次進行的機器翻譯試驗

      1959930日是我國機器翻譯史上一個值得紀念的日子 —— 我國俄漢機器翻譯系統在自制的第一臺大型通用數字計算機104上試驗成功。

      雖然機器翻譯作為計算機非數值應用的新課題早在1946年就被提出來了,但真正出現在人類歷史 卻是195417日。美國喬治敦大學和IBM公司在IBM701上進行了第一次機器翻譯試驗。試驗語種為俄英,詞典包括250個詞,語法只有6條規則。

 

(二) 機器翻譯的幾個重要階段及成果

 

60年代末低谷 —— 70年代中期日趨繁榮 —— 80年代紛紛商品化(其中最重要的是美國的Systran系統) —— 90年代網絡翻譯系統  Light翻譯系統的速度是每秒2000 – 5000詞,以每句20詞計,翻譯速度是每秒100 –250句。 用于電子郵件翻譯或網上聊天等。

 

(三) 如何看待機器翻譯的發展

 

發展原因可以歸結為:

1 硬件飛速發展;

2 軟件技術不斷完善;

3 語言研究不斷深入

 

===========================================================

 

MT Summit VI  (第六屆機器翻譯高峰會議)

19971029 – 111

美國加州圣地亞哥

 

(會議論文集共285頁)

 

First Steps in Mechanical Translation (機器翻譯的早期階段)

 

John Hutchins

 

摘要:盡管機械翻譯的想法早在17世紀就出現了,但直到本世紀40年代隨著電子計算機的出現,這種想法的實現才成為可能。50年前,19473Warren Weaver在寫給Norbert Wiener的信中提到了用計算機進行 。接下來的7年這種想法一直在調查之中。直到19541月第1個機器翻譯模型系統出臺。本文是機械翻譯發展過程的早期階段的編年史。

 

從開始到1947

2  19473

3  1948年的發展

4  19497Weaver的備忘錄

5  1950年對Weaver備忘錄的反應

6  1951Bar-Hillel的調查

7  1952年:第一次機器翻譯會議

8  1952年和1953年的進一步發展

9  19541月喬治敦大學和IBM公司聯合開發的系統登臺演示

    —— 從這時候起,真正的研究開始了。


 

[1] SystranP.Toma改進喬治敦大學的機器翻譯系統之后發展起來的一個商用機器翻譯系統。歐共體從1976年開始引入Systran系統。

[2] Meteo是加拿大蒙特利爾大學TAUM機器翻譯研究組研制的系統

 

 

 

 

 

 

 

 
球探网nba比分直播网 捕鱼显示血量的挂 股票投资顾问公司 大众麻将玩法 股票上涨赚的是谁的钱 管家婆精准三肖期期中 腾讯分分彩是什么 能赚钱的手机捕鱼游戏 中国福利彩票 幸运农场 pc蛋蛋营销 福建快3开奖走势图结果