Дисципліни:
Курсова робота
На тему:

Проектування САП за аналогією системи лінгвістичного опрацювання тексту ProLing Office.

Дисципліна: Системи автоматизованого перекладу
ВНЗ:НУ «ЛП»
Формат: Word Doc

Переглядів: 1806 Додано: 2013-07-15




Частина тексту

Зміст

  1. Вступ
  2. Огляд Системи машинного перекладу
  3. Історія розвитку систем машинного перекладу
  4. Класифікація систем машинного перекладу
  5. Основні розробники і програмні продукти машинного перекладу
  6. ФОРМУЛЮВАННЯ ЗАДАЧІ
  7. МЕТОДИ ТА ЗАСОБИ КОМП’ЮТЕРНОГО ПЕРЕКЛАДУ
  8. ПРИКЛАД КОМП’ЮТЕРНОГО ПЕРЕКЛАДУ
  9. ВИСНОВКИ
  10. ЛІТЕРАТУРА
  11. ДОДАТКИ
  12. ГЛОСАРІЙ

Вступ

Метою даного курсового проекту є дослідити комплексну систему лінгвістичного опрацювання тексту Пролінг Офіс. В наші дні тотальної комп’ютеризації не залишилося сфери де б комп'ютери не знайшли собі застосування. Розробки у сфері машинного (автоматизованого) перекладу ведуться починаючи з 50-х років, і весь цей час вони вдосконалювалися, ставали все більш автоматизованими, універсальними і все активніше переймали на себе функцію людини-перекладача. Проблема і надалі залишається актуальною адже іноземна мова є однією з найбільших перепон в ділових і соціальних взаємовідносинах мешканців різних країн. Створення можливості швидкого та якісного перекладу ще довго залишатиметься метою численних розробників програмних продуктів. Машинний переклад не тільки економить час , підвищує функціональність і ефективність перекладу він надає нам всі можливості для комплексного лінгвістичного опрацювання текстів, максимально при цьому використовуючи потужності сучасних комп'ютерів і можливості розробників програмного забезпечення. Пролінг Офіс чи не єдина програма створена вітчизняними виробниками яка забезпечує якісний переклад з української мови на російську і навпаки. Більше того в нашому розпорядженні заходяться численні засоби для лінгвістичної обробки тексту та для постредагування перекладу. Пролінг Офіс містить у собі наступні компоненти: засіб перевірки правопису РУТА, електронні словники УЛІС, перекладач ПЛАЙ і засобу повнотекстового пошуку документів MTSearch. Нижче ми розглянемо усі ці компоненти докладніше, і опишемо основні їхні можливості і сфери застосування.

Історія розвитку систем машинного перекладу

Перша успішна реалізація системи машинного перекладу пов'язана з "Джорджтаунським експериментом", здійсненим на машині IBM-701 у 1954 р. Програмне і лінгвістичне забезпечення цієї спроби було досить скромним: словник складався з 250 слів, а граматика - з 6 синтаксичних правил. Цікаво, що переклад робився з російської мови на англійську, і, можливо, цим пояснюється наступна різка активізація розробок у даній області в СРСР. Уже до кінця 1955 р. в Інституті наукової інформації Відділення прикладної математики МІАН СРСР і деяких інших академічних центрах були створені і пройшли тестування програми машинного перекладу на існуючій тоді обчислювальній базі (БЄСМ і "Стріла"). Перші успіхи викликали пожвавлення серед фахівців і породили справжню ейфорію. Було створено кілька глобальних науково-технічних проектів, які замахнулися на повне рішення проблеми перекладу для сучасних мов, і величезна кількість невеликих - для окремих напрямків. На жаль, складність цієї задачі виявилася значно вище, ніж передбачалося. Незабаром загальне розчарування привело до того, що в 1967 р. спеціально створена комісія Національної академії наук США оголосила машинний переклад безперспективним і таким що не заслуговує фінансуванням. Проте інтерес до даної тематики не вгасав ніколи, і новий сплеск розробок прийшовся на 1980-ті роки. Він насамперед був зв'язаний з удосконалюванням обчислювальної техніки, загальним розвитком кібернетики й особливо успіхами в такій її області, як штучний інтелект. Знову з'являються глобальні проекти із солідними бюджетами, серед яких можна назвати такі, як EU ROTRA (Європейське економічне співтовариство), ARIANE (Франція), METAL (США і Німеччина), KANT (США) і ін. Однак, як і двома десятиліттями раніше, жодне з рішень не було доведено до масового застосування. Перші системи базувалися на алгоритмах послідовного перекладу "слово за словом" або "фраза за фразою". Їхні можливості визначалися розмірами словників, що прямо залежать від обсягу пам'яті комп'ютера. Переклад здійснювався окремими фразами, значеннєві зв'язки між якими практично не враховувалися. Така методика одержала назву прямого перекладу. Природно, основні зусилля розроблювачів в епоху створення систем цього класу були спрямовані на оптимізацію структури словникових статей і самих словників і підвищення ефективності доступу до них. Однак надалі стало ясно, що наявність навіть найбільш повного і розробленого словника не вирішує проблеми. Виявилося, що для адекватного перекладу необхідно працювати на більш високому рівні синтаксичних структур. Тим часом традиційна лінгвістика того періоду не мала в розпорядженні ідеї і знань, потрібними для побудови систем машинного перекладу, як у синтаксисі, так і в семантиці. Ні для однієї мови не існувало переліків граматичних конструкцій, не були вивчені умови їхньої сполучуваності і взаємозамінності, не удалося формалізувати правила побудови великих синтаксичних одиниць з більш дрібних. По суті, ні на одне питання, поставлене у зв'язку з даною проблематикою, традиційна лінгвістика 1950-х років не могла дати відповіді. Потреба в створенні теоретичної бази машинного перекладу привела до формування нового напрямку в лінгвістиці, названого прикладною або математичною лінгвістикою. Ми не будемо описувати основи цієї дисципліни і її науковий апарат, укажемо лише, що для комп'ютеризації перекладу важливе значення зіграла одна з областей математичної лінгвістики - формальна теорія граматик. Її розвиток дозволив не тільки вирішити багато практичних і теоретичних проблем машинного перекладу, але і дав можливість із зовсім нових позицій підійти до питань створення мов програмування й інших важливих задач штучного інтелекту. Разом з розвитком машинного перекладу як області прикладної лінгвістики виникла і глобальна класифікація систем, відповідно до якої машинний переклад прийнято поділяти на два типи - Transfer і Interlingua. Цей поділ заснований на архітектурних особливостях. Лінгвістичні алгоритми перекладу для систем типу Transfer будуються як композиція трьох процесів: аналізу вихідного речення в термінах вхідної мови, перетворення отриманої структури в аналогічну для вихідної мови (власне процес Transfer, тобто перенос) і потім синтезу результуючого речення по ній. У свою чергу системи типу Interlingua припускають наявність деякої метамови (у буквальному значенні - Interlingua, тобто щось схоже на мову-посередник), на якому можна описати всі структури як вхідної, так і вихідної мов. Тому алгоритм перекладу в Interlingua виглядає більш просто: аналіз вихідного речення в термінах метамови і потім синтез по метаструктурі речення вихідною мовою. Головна проблема в цьому випадку складається саме в розробці метамови і формального опису його в термінах мови природньої. Треба сказати, що поки не створено ні однієї реально працюючої системи типу Interlingua, але фахівці припускають, що в майбутньому, у міру удосконалювання знань у даній області, вони займуть гідне місце серед інших технологій. Перспективи машинного перекладу тісно зв'язані з подальшим розвитком таких наукових напрямків, як порівняльне мовознавство, загальна теорія перекладу, теорія закономірних відповідностей і способів представлення знань, а також з оптимізацією й удосконалюванням лінгвістичних алгоритмів. Підвищити якість перекладу лексичних одиниць допоможуть теорії термінологізації лексики, а формальні граматики, орієнтовані на переклад, дадуть можливість поліпшити алгоритми перебування перекладних відповідностей у конкретному контексті, що може бути описаний у рамках прикладних теорій представлення знань. І нарешті, поява нових технологій програмування і чергових поколінь обчислювальної техніки обов'язково буде сприяти подальшому розвиткові теорії і практики комп'ютерного перекладу.

Основні розробники і програмні продукти машинного перекладу

Машинний переклад являє собою одну із самих наукомістких сфер у світовій індустрії програмного забезпечення. Тому не дивно, що тут давно визначилися свої лідери - як у міжнародному, так і національному масштабах. До найбільш відомих компаній відносяться SYSTRAN, TRADOS, LOGOS (усі зі США), STAR (Швейцарія) і деякі інші. Окремі продукти цих фірм включають підтримку російської мови (у більшості випадків переклад не витримує критики), однак основна увага все-таки приділена європейським мовам і японській мові. Трохи детальніше варто зупинитися на системах, розроблювальних у Росії й Україні, у силу того що вони найбільше впевнено працюють з російською й українською мовою. При цьому необхідно відзначити, що слов'янські мови мають свої характерні риси, зокрема вільний порядок слів і розвиту систему флексій, що створюють додаткові складності для якісного комп'ютерного перекладу. Утім, вони (складності) не є нездоланними, що і доводять лідери ринку. Мабуть, більше за все відомі в нас програми сімейства PROMT, які забезпечують переклад з російської на англійську, іспанську, німецьку, французьку, італійську і назад. Висока якість роботи PROMT і його універсальність у першу чергу зв'язані з використанням науково обґрунтованих лінгвістичних технологій і з оптимальною архітектурою програми, що дозволяє вирішувати задачу перекладу на декількох рівнях. На жаль, PROMT не підтримує українську мову, але дана проблема у визначеній мірі вирішується вітчизняними компаніями. Насамперед заслуговує згадування система перекладу Pragma, яка завдяки своїй оригінальній архітектурі є у визначеному змісті "мовонезалежною". У всякому разі розроблювачі зтверджують, що формування нових напрямків перекладу відбувається автоматично при додаванні словника для будь-якої мови, родинного англійському або російській. До останнього часу в Pragma 3.0 підтримувалися чотири мови - англійська, російська, німецька й український, а недавно була оголошена спеціальна версія з підтримкою латвійського. Ще один вітчизняний лінгвістичний пакет ProLingOffice включає програму "ПЛАЙ", що була створена при участі фахівців Інституту мовознавства НАН України і забезпечує переклад з російської на українську і назад. Відзначимо також, що розроблювачі всіх згаданих програм підтримують онлайнові служби, за допомогою яких і можна оцінити якість їхніх систем.

РУТА — це набір комп'ютерних програм (модулів), призначених для перевірки правопису в українському і російському текстах. Це найбільш відомий і розповсюджений компонент ProLingOffice, хоча, напевно, не усі навіть здогадуються про те, що використовують саме його. А щоб переконатися в цьому, досить викликати вікно Про програму Microsoft Word - розглядати його краще в лупу, але так чи інакше слова "РУТА" і "ПроЛінг" проглядаються. Таким чином, саме "РУТА" забезпечує в найпопулярнішому офісному пакеті підтримку української мови але, як завжди, в урізаному виді. Як окрема програма "РУТА" обіцяє безліч переваг. Головні з них - додаткова підтримка Adobe PageMaker 6.х/7.х, розширені словники (більш 170 тис. лексем в українському і 130 тис. у російській мові), можливість їхнього інтелектуального поповнення з урахуванням усіх словоформ. Після інсталяції "РУТА" вбудовується в Microsoft Office, заміняючи стандартні засоби перевірки правопису і граматики, а також тезаурус. Вона виконує ті ж функції, і користувачеві не прийдеться змінювати стиль своєї роботи, можна, однак, скористатися і більш адаптованим інструментом, доступним через спеціальне меню: у ньому надаються не тільки варіанти виправлень слів, але і синоніми, а при перевірці граматики і стилістики - інформація про допущену помилку. Особлива увага "РУТА" приділяє боротьбі з русизмами - як правило, для них відразу пропонується коректний переклад на українську мову. На жаль, до деяких запозичень з інших мов програма відноситься більш лояльно, приміром, слово "iмплементацiя" не тільки є присутнім в українському словнику (причому, синоніми для нього не пропонуються) але і на російську прекладається простою транслітерацією. У цілому, похвали заслуговують і інші функції "РУТА" - об'ємний тезаурус, автоматичне й у більшості випадків абсолютно вірна побудова парадигми невідомого слова, пошук і заміна слів у всіх словоформах (правда, без використання підстановочних знаків, що мотивується властивим слов'янським мовам розвитою словозмінною системою) і ін. У комплект постачання також входить набір корисних макросів і утиліт, призначених для імпорту і коректування тексту з неправильно закодованими українськими буквами, а також для глобального розміщення "м'яких" переносів у виді довільного символу, що пригодиться, скажемо, для наступного імпорту тексту в системи верстки. Розглянемо докладніше основні функції можливості і компоненти Рути.

Системні вимоги як пакету Proling Office в цілому так і рути зокрема аж ніяк не вимагають від користувача наявності супер комп’ютера достатньо мати

Операційна система Windows, повинна підтримувати кириличну кодову таблицю символів 1251, або бути російською чи українською версією Windows.

Робота з ПЛАЙ досить проста: у кожній з підтримуваних програм досить виділити фрагмент тексту (у противному випадку перекладеться весь документ) і скористатися меню Плай або кнопкою Переклад на панелі інструментів. Програмі можна вказати напрямок перекладу, а також настроїти деякі параметри, наприклад задати тематику тексту. Потім "ПЛАЙ" поміщає перекладений фрагмент у новий документ і дозволяє правити його у власному вікні. Спеціальним кольором виділяються невідомі, зарезервовані слова, слова з неприпустимими символами і слова які мають кілька варіантів перекладу, при цьому в Microsoft Word необхідні інструменти доступні прямо з контекстного меню. При необхідності редагування перекладеного тексту можна відкласти, зберігши службову інформацію, що забезпечить можливість надалі працювати з перекладом, використовуючи всі засоби ПЛАЙ. ПЛАЙ надає всі необхідні засоби для наступного редагування перекладу рис 1 У порівнянні з попередніми версіями якість перекладу виявилося більш високим, причому в обох напрямках. Незважаючи на деякі огріхи, зв'язані, швидше за все, з обробкою тексту вроздріб, зміст текстових фрагментів (загальна лексика, комп'ютери, математика, філологія) передається досить точно, і після невеликих виправлень переклад цілком придатний до подальшого використання. Словниковий запас, однак, трохи менше, ніж, скажемо, у Pragma, тому вдала система поповнення словника не виявиться зайвою. Тим більше що робота з "ПЛАЙ", як і з більшістю подібних систем, повинна складатися з декількох етапів: чорновий переклад (рекомендується спочатку виконати граматичну перевірку тексту), корекція словника, чистовий переклад. Поповнювати словник можна як до перекладу (через вікно настроювання опцій), так і після, у процесі редагування. В іншому випадку діалогове вікно буде містити опцію Зарезервувати, що забороняє подальший переклад слова - це зручно, наприклад, при роботі з текстами, що містять власні імена, назви газет, журналів і ін.

У будь-якому випадку при додаванні в словник нової статті програма сама намагається визначити і частину мови, і граматичні характеристики слова. Якщо ж вона помилилася, можна самостійно внести корективи, вибравши потрібну вкладку. Потім вводиться переклад слова і виконується настроювання його парадигми. Варто зазначити, що характеристики невідомого слова визначаються статистично, на основі його подібності з тими, котрі вже є в словнику. У процесі своєї роботи програма веде статистику невідомих слів. Перед початком перекладу спеціальних текстів можна задати їхнє максимально припустиме число, перевищення якого буде однозначно свідчити про необхідність попереднього поповнення словника. Меню Плай також надає можливість перекладу окремогослова і наступної його заміни, у тому числі і по всьому тексту в усіх словоформах.

Головне достоїнство подібних систем - додавання в словник відразу всієї парадигми невідомого слова мал. (2) Як уже говорилося, коректувати переклад у Microsoft Word можна двома способами - безпосередньо в документі за допомогою колірної розмітки і контекстного меню або в особливому вікні, куди завантажуються перекладені реченняі де знаходиться ряд спеціальних інструментів (вибір синонімів, варіантів перекладу, додавання в словник і ін.). Однак потрібно мати на увазі, що в іншому випадку виправлення автоматично в текст не переносяться, необхідно спеціально скористатися функцією вставки - при цьому чомусь вихідний фрагмент не заміняється, видаляти його прийдеться вручну. Мабуть, це головний мінус "ПЛАЙ" - адже при роботі з великими текстами так немудро і заплутатися. Зате не можна не похвалити розробників за вбудовану можливість відправлення листа з фрагментом, що був невдало або неправильно перекладений "ПЛАЙ", сподіваємося, це дозволить ще підвищити якість роботи програми. Оскільки "ПЛАЙ" і "РУТА" інтегруються майже винятково з Microsoft Office, у них також маються автономні версії - "ПЛАЙ Експрес" і "РУТА Експрес" відповідно. Вони забезпечують базову функціональність пакета практично в будь-якій програмі, яка підтримує введення інформації, - такий підхід цілком підходить для роботи з невеликими текстовими фрагментами.

АЛГОРИТМ АВТОМАТИЗОВАНОГО ПЕРЕКЛАДУ

Під час виконання курсового проекту перш за все слід провести розпізнавання символів PDF-файлу за допомогою системи оптичного розпізнавання символів FineReader, програма аналізує зображення як графічне, так і текстове. FineReader розпізнає усі символи таблиць, рядків, малюнків. Аналіз макета сторінки проводиться як автоматично так і вручну, проте автоматичним способом якість сегментації може бути нижчою. Важливим є момент розпізнавання, тобто правильної підготовки до розпізнавання окремо виділити тексти, таблиці, малюнки. Після процесу розпізнавання переходимо до перевірки, використовуючи систему вбудованої перевірки орфографії (знаходячи неправильно розпізнані слова, орфографічні помилки, додаючи невідомі слова до FineReader) і збереження вже розпізнаного тексту у MS Word, а також збереження вирівнювання тексту в таблицях при передачі в MS Excel. Після виконання описаних вище завдань робимо машинний переклад за допомогою програми-перекладача Pragma. Але оскільки Pragma не робить ідеального перекладу, тому слід редагувати текст для того, щоб отримати справді якісний переклад. Отже, без наукової редакції та коригування тексту якість вихідного документу тексту не відповідала б очікуваній якості. Тому для редагування я використовую Lingvo 10.

ПРИКЛАД КОМП’ЮТЕРНОГО ПЕРЕКЛАДУ

Завданням практичної частини курсового проекту було здійснення автоматизованого перекладу книжки Goodwin P., Wright G. “Decision Analysis for Management Judgment” (2004) 3rd ed.) (pp.297-348). Книга є досить складною, так як містить спеціалізовану лексику та багато технічних термінів.

Під час редагування комп’ютерного перекладу я орієнтувалася на оригінал тексту (Додаток А), тому що англійська мова відрізняється від інших чіткою структурою речень, що не дає змоги зробити дослівний переклад. В оригіналі вживалися конструкції, які програма перекладала зовсім неправильно, тому було потрібно переробляти ціле речення.

В машинному перекладі (Додаток Б) можна побачити слова, виділені іншим кольором. Це такі слова, які Pragma залишила неперекладеними або ж слова, що мають синоніми. Певним чином це призводить до непорозуміння. Можна зробити висновок, що такий переклад (Додаток Б) можна використовувати тоді, коли потрібно швидко та лише поверхнево ознайомитися зі змістом тексту.

Проте, якщо текст використовуватиметься для подальшої роботи, то переклад потрібно редагувати, щоб тримати повноцінну і зрозумілу інформацію. Додатком є переклад книжки “Decision Analysis for Management Judgment”, який я намагалася відредагувати якнайкраще.