Help:Extension:Translate/Translation memories/uk
Пам'ять перекладів розширення Translate підтримує ElasticSearch. Ця сторінка має на меті надати вам інсталяцію ElasticSearch та детальніше вивчити її характеристики.
На відміну від інших засобів перекладу, наприклад зовнішніх служб машинного перекладу пам’ять перекладів постійно оновлюється новими перекладами у вашій вікі. Розширений пошук у перекладах також доступний на сторінці Special:SearchTranslations, якщо ви вирішите використовувати ElasticSearch.
Порівняння
Бекенд бази даних використовується за замовчуванням: він не має залежностей і не потребує налаштування. Бекенд бази даних не може бути спільним між кількома вікі, і він не масштабується до великої кількості перекладеного вмісту. Тому ми також підтримуємо ElasticSearch як бекенд. Також можна використовувати пам’ять перекладів іншої вікі, якщо їхній веб-API відкритий. На відміну від ElasticSearch, віддалені бекенди не оновлюються перекладами з поточної вікі.
База даних | Віддалено через API | ElasticSearch | |
---|---|---|---|
Увімкнено за замовчуванням | <translate> Yes</translate> | <translate> No</translate> | <translate> No</translate> |
Може мати декілька джерел | <translate> No</translate> | <translate> Yes</translate> | <translate> Yes</translate> |
Оновлюється з локальними перекладами | <translate> Yes</translate> | <translate> No</translate> | <translate> Yes</translate> |
Прямий доступ до бази даних | <translate> Yes</translate> | <translate> No</translate> | <translate> No</translate> |
Доступ до джерела | Редактор | Посилання | Редактор (в локальному режимі) або посилання |
Може поширюватись як сервіс API | <translate> Yes</translate> | <translate> Yes</translate> | <translate> Yes</translate> |
Продуктивність | Не добре масштабується | Невідомо | Розумний |
Вимоги
Бекенд ElasticSearch
ElasticSearch відносно легко налаштувати. Якщо він недоступний у ваших дистрибутивних пакетах, ви можете отримати його з їхнього веб-сайту. Вам також потрібно буде отримати Elastica . Нарешті, див. puppet/modules/elasticsearch/files/elasticsearch.yml, щоб отримати конкретну конфігурацію, необхідну для Перекладача.
Скрипт завантаження створить необхідні схеми. Якщо ви використовуєте бекенд ElasticSearch з кількома вікі, вони за замовчуванням використовуватимуть пам’ять перекладів, якщо ви не встановите параметр індексу в конфігурації.
Під час оновлення до наступної основної версії ElasticSearch (наприклад, оновлення з 2.x до 5.x) настійно рекомендуємо прочитати примітки до випуску та документацію щодо процесу оновлення.
Встановлення
Після встановлення вимог інсталяція вимагає від вас налаштувати конфігурацію, а потім виконати завантаження.
Конфігурація
Усі допомоги перекладу включно з пам'яттю перекладу налаштовуються у налаштуваннях конфігурацій $wgTranslateTranslationServices
.
Основна серверна частина пам’яті перекладів має використовувати ключ TTMServer
. Основний серверний сервер отримує оновлення перекладів і використовується Special:SearchTranslations.
Приклад конфігурації TTMServers:
Налаштування за замовчуванням |
---|
$wgTranslateTranslationServices['TTMServer'] = array(
'database' => false, // Passed to wfGetDB
'cutoff' => 0.75,
'type' => 'ttmserver',
'public' => false,
);
|
Налаштування Remote API |
$wgTranslateTranslationServices['example'] = array(
'url' => 'http://example.com/w/api.php',
'displayname' => 'example.com',
'cutoff' => 0.75,
'timeout' => 3,
'type' => 'ttmserver',
'class' => 'RemoteTTMServer',
);
|
Конфігурація серверної частини ElasticSearch |
In this case the single back-end service will be used both for reads & writes.
$wgTranslateTranslationServices['TTMServer'] = array(
'type' => 'ttmserver',
'class' => 'ElasticSearchTTMServer',
'cutoff' => 0.75,
/*
* See http://elastica.io/getting-started/installation.html
* See https://github.com/ruflin/Elastica/blob/8.x/src/Client.php
'config' => This will be passed to \Elastica\Client
*/
);
|
Конфігурація кількох серверів ElasticSearch (підтримується MLEB 2017.04) |
// Визначає службу за замовчуванням, яка використовується для операцій читання
// Дозволяє швидко переключатися на інший бекенд
// 'mirrors' configuration option is no longer supported since MLEB 2023.10
$wgTranslateTranslationDefaultService = 'cluster1';
$wgTranslateTranslationServices['cluster1'] = array(
'type' => 'ttmserver',
'class' => 'ElasticSearchTTMServer',
'cutoff' => 0.75,
/*
* Визначає список служб для реплікації записів.
* Тут дозволені лише «записувані» послуги.
*/
'mirrors' => [ 'cluster2' ],
'config' => [ 'servers' => [ 'host' => 'elastic1001.cluster1.mynet' ] ]
);
$wgTranslateTranslationServices['cluster2'] = array(
'type' => 'ttmserver',
'class' => 'ElasticSearchTTMServer',
'cutoff' => 0.75,
/*
* якщо «cluster2» визначено як служба за замовчуванням, вона почне реплікувати записи в «cluster1».
*/
'mirrors' => [ 'cluster1' ],
'config' => [ 'servers' => [ 'host' => 'elastic2001.cluster2.mynet' ] ]
);
|
ElasticSearch multiple services with single readable service using writable configuration (supported by MLEB 2023.04)
|
With writable configuration the following rules are enforced:
If a service is marked as writable, the mirrors configuration will not be allowed. // Three services configured with one being readable and the others being writable.
$wgTranslateTranslationServices['dc0'] = [
'type' => 'ttmserver',
'class' => 'ElasticSearchTTMServer',
'cutoff' => 0.75,
// Default service cannot be marked as write-only
];
$wgTranslateTranslationServices['dc1'] = [
'type' => 'ttmserver',
'class' => 'ElasticSearchTTMServer',
'cutoff' => 0.75,
// Marks this service as write-only
'writable' => true,
];
$wgTranslateTranslationServices['dc2'] = [
'type' => 'ttmserver',
'class' => 'ElasticSearchTTMServer',
'cutoff' => 0.75,
'writable' => true
];
$wgTranslateTranslationDefaultService = 'dc0';
|
Можливі ключі і значення:
Ключ | Застосовується до | Опис |
---|---|---|
config
|
ElasticSearch | Конфігурація передана в Elastica. |
cutoff
|
Усе | Мінімальний поріг задоволення запиту. Відображаються тільки кращі запити, навіть якщо будуть і інші, що досягли порогу. |
database
|
Локально | Якщо Ви хочете зберігати пам'ять перекладів в іншому місці, можна вказати назву бази даних тут. Вам також потрібно налаштувати у стабілізаторі завантаження MediaWiki, як під'єднатись до цієї бази даних. |
displayname
|
Віддалено | Текст, що показується у спливаючій підказці під час наведення курсором на посилання на джерело пропозиції перекладу (маркер). |
index
|
ElasticSearch | Індекс для використання в ElasticSearch. За замовчуванням: ttmserver. |
public
|
Усе | Чи можна на цей TTMServer подати запит через api.php цієї вікі. |
replicas
|
ElasticSearch | Якщо ви запускаєте кластер, ви можете збільшити кількість реплік. За замовчуванням: 0. |
shards
|
ElasticSearch | Скільки фрагментів використовувати. За замовчуванням: 5. |
timeout
|
Віддалено | Скільки в секундах чекати відповіді від віддаленого сервісу. |
type
|
Усе | Тип TTMServer в плані формату результатів. |
url
|
Віддалено | URL до api.php віддаленого TTMServer. |
use_wikimedia_extra
|
ElasticSearch | Булево, коли розгорнуто додатковий плагін, ви можете вимкнути динамічні сценарії на Elastic v1.x. Цей плагін тепер є обов’язковим для кластерів Elastic 2.x. |
mirrors (DEPRECATED Since MLEB 2023.04)
|
Послуги для запису | Масив рядків визначає список служб для реплікації записів, дозволяє підтримувати кілька служб TTM в актуальному стані. Корисно для швидкого перемикання або скорочення простоїв під час планових операцій технічного обслуговування (Додано в MLEB 2017.04) Cannot be used along with the newly added writable configuration.
|
writable (Added in MLEB 2023.04)
|
Write-only services | Boolean value, defined for a service if that service is write-only. The default service (wgTranslateTranslationDefaultService ) cannot be marked as write-only. If out of all the translation memory services configured, none are marked as writable then all services are considered to be readable and writable. Див. <translate> task <tvar name=1>T322284</tvar></translate>.
|
TTMServer
як індекс масиву до $wgTranslateTranslationServices
, якщо хочете, щоб пам'ять перекладу оновлювалась новими перекладами. Віддалені TTMServers не можуть використовуватись для цього, оскільки їх не можна оновити. Починаючи з MLEB 2017.04 ключ TTMServer
можна налаштувати за допомогою змінної конфігурації $wgTranslateTranslationDefaultService
. Support for Solr backend was dropped in MLEB-2019.10, in October, 2019.В даний момент для бекенда бази даних підтримується лише MySQL.
Bootstrap
Після того, як ви вибрали ElasticSearch та налаштували вимоги та конфігурацію, запустіть ttmserver-export.php
, щоб завантажити пам’ять перекладів.
Завантаження також необхідне при зміні серверної частини пам'яті перекладів. Якщо ви використовуєте спільну серверну пам’ять перекладів для кількох вікі, вам потрібно буде завантажити кожну з них окремо.
Сайтам із великою кількістю перекладів варто розглянути можливість використання кількох потоків із параметром --thread
, щоб прискорити процес. Час значною мірою залежить від того, наскільки повною є статистика завершення групи повідомлень (неповні будуть розраховані під час завантаження). Нові переклади автоматично додаються за допомогою гачка. Нові джерела (визначення повідомлень) додаються, коли створюється перший переклад.
Bootstrap виконує такі дії, які інакше не відбуваються:
- додавання та оновлення схеми пам'яті перекладів;
- заповнення пам'яті перекладів наявними перекладами;
- очищення невикористаних записів перекладів шляхом очищення та повторного заповнення пам'яті перекладів.
Коли переклад повідомлення оновлюється, попередній переклад видаляється з пам’яті перекладів. Однак, коли переклади оновлюються відповідно до нового визначення, додається новий запис, але старе визначення та його старі переклади залишаються в базі даних до очищення. Коли повідомлення змінює визначення або видаляється з усіх груп повідомлень, нічого не відбувається негайно. Збереження перекладу як нечіткого не додає новий переклад і не видаляє старий у пам’яті перекладів.
Доступ до TTMServer через API
Якщо Ви хотіли б впровадити власний сервіс TTMServer, тут подано деякі технічні параметри.
Параметри запиту:
Ваш сервіс повинен прийняти такі параметри:
Ключ | Значення |
---|---|
format
|
json |
action
|
ttmserver |
service
|
Необов'язковий ідентифікатор сервісу, якщо є декілька спільних пам'ятей перекладу. Якщо не вказаний, приймається сервіс за замовчуванням. |
sourcelanguage
|
Код мови, що використовується у MediaWiki, див. мовні теги IETF і ISO693? |
targetlanguage
|
Код мови, що використовується у MediaWiki, див. мовні теги IETF і ISO693? |
test
|
Вихідний текст мовою джерела |
Ваш сервіс повинен надавати об'єкт JSON, що мусить мати ключ ttmserver
з масивом об'єктів. Ці об'єкти повинні містити такі дані:
Ключ | Значення |
---|---|
source |
Оригінальний текст джерела. |
target |
Підказка перекладу. |
context |
Локальний ідентифікатор для джерела, необов'язково. |
location |
URL на сторінку, де можна побачити, як підказка використовується. |
quality |
Десяткове число в діапазоні [0..1], що описує якість підказки. 1 означає максимальне співпадіння. |
Приклад:
- URL: http://translatewiki.net/w/api.php?action=ttmserver&sourcelanguage=en&targetlanguage=fi&text=january&format=jsonfm
- Повертає:
{
"ttmserver": [
{
"source": "January",
"target": "tammikuu",
"context": "Wikimedia:Messages\\x5b'January'\\x5d\/en",
"location": "https:\/\/translatewiki.net\/wiki\/Wikimedia:Messages%5Cx5b%27January%27%5Cx5d\/fi",
"quality": 0.85714285714286
},
{
"source": "January",
"target": "tammikuu",
"context": "Mantis:S month january\/en",
"location": "https:\/\/translatewiki.net\/wiki\/Mantis:S_month_january\/fi",
"quality": 0.85714285714286
},
{
"source": "January",
"target": "Tammikuu",
"context": "FUDforum:Month 1\/en",
"location": "https:\/\/translatewiki.net\/wiki\/FUDforum:Month_1\/fi",
"quality": 0.85714285714286
},
{
"source": "January",
"target": "tammikuun",
"context": "MediaWiki:January-gen\/en",
"location": "https:\/\/translatewiki.net\/wiki\/MediaWiki:January-gen\/fi",
"quality": 0.85714285714286
},
{
"source": "January",
"target": "tammikuu",
"context": "MediaWiki:January\/en",
"location": "https:\/\/translatewiki.net\/wiki\/MediaWiki:January\/fi",
"quality": 0.85714285714286
}
]
}
Бекенд бази даних
Backend містить три таблиці: translate_tms
, translate_tmt
і translate_tmf
. Вони відповідають джерелам, цілям та повному тексту. Ви можете знайти визначення таблиць у sql/translate_tm.sql
. Джерела містять усі визначення повідомлень. Незважаючи на те, що зазвичай вони написані тією ж мовою, скажімо, англійською, мова тексту також зберігається, крім рідкісних винятків.
Кожен запис має унікальний id і два додаткові поля, «length» і «context». «Length» використовується як перший фільтр довжини, так що при подачі запиту не треба порівнювати текст, який ми шукаємо, з кожним записом у базі даних. У «context» прописується назва сторінки, з якої цей текст, наприклад «MediaWiki:Jan/en». Виходячи з цієї інформації, ми можемо видати підказку на «MediaWiki:Jan/de», що дає можливість перекладачам швидко працювати, та й просто визначати, де використано такий вид перекладу.
Другий крок фільтрації забезпечується повнотекстовим пошуком. Визначення змішані за спеціальним алгоритмом. Спершу текст розбивається на сегменти (слова) з допомогою Language::segmentByWord
MediaWiki. Якщо сегментів достатньо, відсівається все, що не є літерами слів, і впорядковується. Потім беремо перші десять унікальних слів довжиною щонайменше 5 байтів (5 букв англійською, але навіть і менші слова у мовах з мультибайтними кодовими точками). Ці слова потім зберігаються у повнотекстовому індексі для подальшої фільтрації у довших рядках.
Коли ми відфільтрувати список кандидатів, дістаємо з цільової таблиці те, що співпадає. Потім застосовується алгоритм відстані редагування Левенштейна для останнього фільтрування і ранжування. Давайте визначимо:
- E
- відстань редагування
- S
- текст, для якого шукаються підказки
- Tc
- текст підказки
- To
- вихідний текст, перекладом якого є Tc
Якість підказки Tc обраховується як E/min(length(Tc),length(To)). Залежно від довжини (length) рядків, ми користуємося або вбудованою функцією Левенштейна PHP, або, якщо будь-який з рядків довший, ніж 255 байтів, реалізацією алгоритму Левенштейна.[1] It has not been tested whether the native implementation of levenshtein handles multibyte characters correctly. This might be another weak point when source language is not English (the others being the fulltext search and segmentation).
<translate> Translators</translate> (<translate> main help page</translate> )
- <translate> How to translate</translate>
- <translate> Best practices</translate>
- <translate> Statistics and reporting</translate>
- <translate> Quality assurance</translate>
- <translate> Message group states</translate>
- <translate> Offline translation</translate>
- <translate> Glossary</translate>
<translate> Translation administrators</translate>
- <translate> How to prepare a page for translation</translate>
- <translate> Page translation administration</translate>
- <translate> Unstructured element translation</translate>
- <translate> Group management</translate>
- <translate> Move translatable page</translate>
- <translate> Import translations via CSV</translate>
- <translate> Working with message bundles</translate>
<translate> Sysadmins and developers</translate>
- <translate> Installation</translate>
- <translate> Configuration</translate>
- <translate> Getting started with development</translate>
- <translate> Developer guide</translate>
- <translate> Extending Translate</translate>
- <translate> Validators</translate>
- <translate> Insertables</translate>
- <translate> Group configuration</translate>
- <translate> Group configuration example</translate>
- <translate> Translation memories</translate>
- <translate> Translation aids</translate>
- <translate> Enabling message bundles</translate>
- <translate> PHP hooks</translate>