做網(wǎng)站的外包能學到什么深圳最新政策消息
#AI夏令營 #Datawhale #夏令營
1.賽事簡介
目前神經(jīng)機器翻譯技術已經(jīng)取得了很大的突破,但在特定領域或行業(yè)中,由于機器翻譯難以保證術語的一致性,導致翻譯效果還不夠理想。對于術語名詞、人名地名等機器翻譯不準確的結果,可以通過術語詞典進行糾正,避免了混淆或歧義,最大限度提高翻譯質量。
2.賽事任務
基于術語詞典干預的機器翻譯挑戰(zhàn)賽選擇以英文為源語言,中文為目標語言的機器翻譯。本次大賽除英文到中文的雙語數(shù)據(jù),還提供英中對照的術語詞典。參賽隊伍需要基于提供的訓練數(shù)據(jù)樣本從多語言機器翻譯模型的構建與訓練,并基于測試集以及術語詞典,提供最終的翻譯結果,數(shù)據(jù)包括:
·訓練集:雙語數(shù)據(jù):中英14萬余雙語句對
·開發(fā)集:英中1000雙語句對
·測試集:英中1000雙語句對
·術語詞典:英中2226條
3.baseline
(1)對中英雙語句對進行分詞:
import nltk
import jieba
def read_file(filepath):with open(filepath, 'r', encoding='utf-8') as file:lines = file.readlines()return lines# 分詞英語文本
def tokenize_en(lines):return [' '.join(nltk.word_tokenize(line)) for line in lines]# 分詞中文文本
def tokenize_zh(lines):return [' '.join(jieba.cut(line)) for line in lines]
(2)統(tǒng)計句長分布
train_en.tok
train_zh.tok
句長普遍較短,且中英句長分布有區(qū)別。
(3)filter
利用分詞后的語料訓練源語言和目標語言的語言模型,打分后刪除低分語句。
(4)訓練