2009年12月31日木曜日

(Code: c) gtrans2

Google Translate を利用して露英翻訳するCのコードです。以前書いたコードを改良。
#include <stdio.h>
#include <curl/curl.h>
#include <stdlib.h>
#include <string.h>

#define FMT_WARN     "Warning: %s\n"
#define FMT_WARN_US  "Warning: unknown state %s\n"
#define FMT_ERR      "Error: %s\n"
#define FMT_ERR_WITH "Error: %s (%d): %s\n"

#define OFFSET 24
static const char *url = "http://translate.google.com/translate_a/t";
static const char *data = "client=t&sl=ru&tl=en&text=";
static const char *useragent = "User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)";
static const char *result_null = "{\"src\":\"el\"}";


static char *
urie(const char *text)
{
  char *text_urie;
  char *p;

  text_urie = malloc(strlen(text) * 3 + 1);
  p = text_urie;
  while (*text) {
    snprintf(p, 4, "%%%02X", (unsigned char) *text);
    text++;
    p += 3;
  }
  *p = '\0';

  return text_urie;
}

static char *
unesc(const char *str)
{
  int len;
  char *str_unesc;
  char *p;

  len = strlen(str);
  str_unesc = malloc(len + 1);
  p = str_unesc;
  while (*str) {
    if (*str != '\\') {
      *p = *str;
    } else {
      str++;
      if (*str != 'u') {
*p = *str;
      } else {
str++;
if (*str == '0') {
  str++;
} else {
  fprintf(stderr, FMT_WARN_US, "!(*str == '0') (1)");
  return NULL;
}
if (*str == '0') {
  str++;
} else {
  fprintf(stderr, FMT_WARN_US, "!(*str == '0') (2)");
  return NULL;
}
if (*str == '2') {
  str++;
  if (*str == '6') {
    *p = '&';
  } else {
    fprintf(stderr, FMT_WARN_US, "!(*str == '6')");
    return NULL;
  }   
} else if (*str == '3') {
  str++;
  if (*str == 'c') {
    *p = '<';
  } else if (*str == 'e') {
    *p = '>';
  } else {
    fprintf(stderr, FMT_WARN_US, "!((*str == 'c') || (*str == 'e'))");
    return NULL;
  }      
} else {
  fprintf(stderr, FMT_WARN_US, "!((*str == '2') || (*str == '3'))");
  return NULL;
}
      }
    }
    str++;
    p++;
  }
  *p = '\0';

  return str_unesc;
}

static size_t
write_data(void *buffer, size_t size, size_t nmemb, void *userp)
{
  int len = size * nmemb;
  char result[len + 1];
  char *p, *p_e;
  int len_trans;
  char *trans;
  char *trans_unesc;

  if (len) {
    strncpy(result, buffer, len);
    result[len] = '\0';
    if (strcmp(result, result_null)) {
      if (len < OFFSET) {
fprintf(stderr, FMT_WARN_US, "(len < OFFSET)");
return -1;
      }
      p = result + OFFSET;
      p_e = p;
      while (*p_e != '"' && *p_e) {
if (*p_e == '\\')
  p_e++;
p_e++;
      }
      if (*p_e != '"') {
fprintf(stderr, FMT_WARN_US, "(*p_e != '\"')");
return -1;
      }
      len_trans = p_e - p;
      if (len_trans) {
trans = malloc(len_trans + 1);
strncpy(trans, p, len_trans);
trans[len_trans] = '\0';
if ((trans_unesc = unesc(trans)) != NULL) {
  printf("%s\n", trans_unesc);
} else {
  fprintf(stderr, FMT_WARN, "unesc failed");
  printf("%s\n", trans);
}
free(trans_unesc);
free(trans);
      }
    }
  }

  return len;
}


int
main(int argc, char **argv)
{
  CURL *curl;
  char *text_urie;
  int size_data_all, size_url_all;
  char *data_all, *url_all;
  CURLcode res;
  struct curl_slist *headers = NULL;

  if (argc < 2) {
    fprintf(stderr, FMT_ERR, "need an arg (Russian phrase)");
    return 1;
  } else if (argc > 2) {
    fprintf(stderr, FMT_ERR, "too many args. need just an arg");
    return 1;
  }    

  curl = curl_easy_init();
  if(!curl) {
    fprintf(stderr, FMT_ERR, "curl_easy_init() failed");
    return 1;
  }

  text_urie = urie(argv[1]);

  size_data_all = strlen(data) + strlen(text_urie) + 1;
  data_all = malloc(size_data_all);
  strcpy(data_all, data);
  strcat(data_all, text_urie);
  free(text_urie);

  size_url_all = strlen(url) + 1 + size_data_all;
  url_all = malloc(size_url_all);
  snprintf(url_all, size_url_all, "%s?%s", url, data_all);
  free(data_all);

  curl_easy_setopt(curl, CURLOPT_TIMEOUT, 10);
  curl_easy_setopt(curl, CURLOPT_HTTPGET, 1);
  curl_easy_setopt(curl, CURLOPT_URL, url_all);
  headers = curl_slist_append(headers, useragent);
  curl_easy_setopt(curl, CURLOPT_HTTPHEADER, headers);
  curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, write_data); 

  res = curl_easy_perform(curl);

  free(url_all);
  curl_slist_free_all(headers);
  curl_easy_cleanup(curl);

  if(res) {
    fprintf(stderr, FMT_ERR_WITH, "curl_easy_perform() failed",
    res, curl_easy_strerror(res));
    return 1;
  }

  return 0;
}

  • urie()で翻訳したいフレーズをURIエンコード

  • libcurlで翻訳したいフレーズをGETで送信

  • エスケープ文字(\)を考慮して24バイトのオフセットで結果をパース

  • unesc()でエスケープ文字と特定の記号(\, &, <, >)をアンエスケープ処理

以前に書いたコードはエスケープや数値文字参照を考慮してませんでした。

「я сказал "да"」のようにダブルクオーテーションマーク(")が含まれるフレーズを翻訳すると下の結果が返ってくる。ダブルクオーテーションマークのエスケープに"\"が使われている模様。
{"sentences":[{"trans":"I said \"yes\"","orig":"я сказал \"да\"","translit":""}],"src":"ky"}
特定の記号を含むフレーズ、例えば「& < >」を翻訳すると下の結果が返ってくる。数値文字参照になっている模様。
{"sentences":[{"trans":"\u0026 \u003c\u003e","orig":"\u0026 \u003c \u003e","translit":""}],"src":"en"}
このような翻訳結果をエスケープ文字を考慮してパースした後、unesc()でアンエスケープ処理して対応しました。


コンパイル

実際にはMakefileを書いてmakeで済ませてます。コンパイル前にlibcurlのdevパッケージをインストールしてます。
$ gcc -Wall -O2 `curl-config --cflags`  `curl-config --libs`  gtrans.c   -o gtrans

テスト翻訳
$ ./gtrans 'я сказал "да"'
I said "yes"

$ ./gtrans 'вы & я'
You & I

$ ./gtrans '<<<<<'
<<<<<

$ ./gtrans '>>>>>'
>>>>>
まずまず動作。ダブルクオーテーションや特定の記号を含んだフレーズも問題なく翻訳できるようになりました。


環境

OS: Linux
debian-lenny
libcurl-7.18.2
 

2009年12月20日日曜日

(Code: c) gtrans

Google Translate を利用して露英翻訳するCのコードです。以前書いたシェルスクリプトをCでリライト。
#include <stdio.h>
#include <curl/curl.h>
#include <stdlib.h>
#include <string.h>

#define OFFSET 24
static const char *url = "http://translate.google.com/translate_a/t";
static const char *data = "client=t&sl=ru&tl=en&text=";
static const char *useragent = "User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)";
static const char *result_null = "{\"src\":\"el\"}";


static char *
urie(const char *text)
{
  char *text_urie;
  char *p;

  text_urie = malloc(strlen(text) * 3 + 1);
  p = text_urie;
  while (*text) {
    snprintf(p, 4, "%%%02X", (unsigned char) *text);
    text++;
    p += 3;
  }
  *p = '\0';

  return text_urie;
}

static size_t
write_data(void *buffer, size_t size, size_t nmemb, void *userp)
{
  int len = size * nmemb;
  char result[len + 1];
  char *p, *p_e;
  int len_trans;
  char *trans;

  if (len) {
    strncpy(result, buffer, len);
    result[len] = '\0';
    if (strcmp(result, result_null)) {
      if (len < OFFSET) {
fprintf(stderr, "Warning: unknown state (len < OFFSET)\n");
return -1;
      }
      p = result + OFFSET;
      p_e = p;
      while (*p_e != '"' && *p_e)
p_e++;
      if (*p_e != '"') {
fprintf(stderr, "Warning: unknown state (*p_e != '\"')\n");
return -1;
      }
      len_trans = p_e - p;
      if (len_trans) {
trans = malloc(len_trans + 1);
strncpy(trans, p, len_trans);
trans[len_trans] = '\0';
printf("%s\n", trans);
free(trans);
      }
    }
  }

  return len;
}


int
main(int argc, char **argv)
{
  CURL *curl;
  char *text_urie;
  int size_data_all, size_url_all;
  char *data_all, *url_all;
  CURLcode res;
  struct curl_slist *headers = NULL;

  if (argc < 2) {
    fprintf(stderr, "Error: need an arg (Russian phrase)\n");
    return 1;
  } else if (argc > 2) {
    fprintf(stderr, "Error: too many args. need just an arg (Russian phrase)\n");
    return 1;
  }    

  curl = curl_easy_init();
  if(!curl) {
    fprintf(stderr, "Error: curl_easy_init() failed\n");
    return 1;
  }

  text_urie = urie(argv[1]);

  size_data_all = strlen(data) + strlen(text_urie) + 1;
  data_all = malloc(size_data_all);
  strcpy(data_all, data);
  strcat(data_all, text_urie);
  free(text_urie);

  size_url_all = strlen(url) + 1 + size_data_all;
  url_all = malloc(size_url_all);
  snprintf(url_all, size_url_all, "%s?%s", url, data_all);
  free(data_all);

  curl_easy_setopt(curl, CURLOPT_TIMEOUT, 10);
  curl_easy_setopt(curl, CURLOPT_HTTPGET, 1);
  curl_easy_setopt(curl, CURLOPT_URL, url_all);
  headers = curl_slist_append(headers, useragent);
  curl_easy_setopt(curl, CURLOPT_HTTPHEADER, headers);
  curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, write_data); 

  res = curl_easy_perform(curl);

  free(url_all);
  curl_slist_free_all(headers);
  curl_easy_cleanup(curl);

  if(res) {
    fprintf(stderr, "Error: curl_easy_perform() failed (%d): %s\n",
    res, curl_easy_strerror(res));
    return 1;
  }

  return 0;
}

  • urie()で翻訳したいフレーズをURIエンコード

  • libcurlで翻訳したいフレーズをGETで送信

  • 24バイトのオフセットで結果をパース

UserAgentがcurlだと拒絶される、空だと翻訳結果がKOI8-Rで返ってきてUTF-8の環境でパースしづらくなるのでIEに偽装しています。UAがIEやFirefoxだとUTF-8で結果が返ってくるみたい。


コンパイル

実際にはMakefileを書いてmakeで済ませてます。コンパイル前にlibcurlのdevパッケージをインストールしてます。
$ gcc -Wall -O2 `curl-config --cflags`  `curl-config --libs`  gtrans.c   -o gtrans


テスト翻訳
$ ./gtrans 'здравств'
hello

$ ./gtrans 'я из Японии'
I'm from Japan

$ ./gtrans 'только хорошие умирают молодыми'
only the good die young

$ ./gtrans 'through ascii phrase'
through ascii phrase

$ ./gtrans ' '
(出力なし)

$ ./gtrans ''
(出力なし)

$ ./gtrans '誤って日本語を入力'
誤っ て 日本語 を 入力

$ ./gtrans `echo "えすじす" | iconv -t SJIS-WIN`
(文字化け)
まずまずシェルスクリプト版と同じ動作。関数化してチャットロガーに仕込む下準備が整った!Cでlibcurlをはじめて使ったのだけどすごく便利でした。


環境

OS: Linux
debian-lenny
libcurl-7.18.2
 

Makefile

小さいコードを書くときによく使うMakefileです。

カレントディレクトリーにある*.cファイルを全部コンパイル。"make print"でファイルの行数を出力。CFLAGSとLDFLAGSは用途により適当に修正します。下のコードはlibcurlを使うコードをmakeするときのものです。
PROGS = $(basename $(wildcard *.c))

CC = gcc
CFLAGS = -Wall -O2 `curl-config --cflags`
LDFLAGS = `curl-config --libs`

all: $(PROGS)

print:
wc -l *.c

clean:
$(RM) $(PROGS)


環境

OS: Linux
debian-lenny
make-3.81
 

2009年12月3日木曜日

(Code: sh) gtrans2

Google Translate を利用して露英翻訳するシェルスクリプトです。以前書いたコードを改良。
#!/bin/sh

PROG=`basename $0`

## check cmd
LIST="curl urie"
for CMD in $LIST ;do
TEST_CMD=`which $CMD`
if [ -z "$TEST_CMD" ] ; then
echo "$PROG: Error: we need command \"$CMD\"" >&2
exit 1
fi
done

## check arg
if [ -z "$1" ] ; then
echo "$PROG: Error: need an arg (Russian phrase)" >&2
exit 1
elif [ $# -gt 1 ] ; then
echo "$PROG: Error: too many args. need just an arg (Russian phrase)" >&2
exit 1
fi
TEXT="$1"


## body
UA='Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)'
URL=http://translate.google.com/translate_a/t
TEXT_URIE=`echo "$TEXT" | urie`

RESULT=`curl -Ss -m 10 -G -A "$UA" "$URL" -d client=t -d text="$TEXT_URIE" -d sl=ru -d tl=en`
TEST_CURL=$?
#echo "$RESULT" ##debug
if [ $TEST_CURL -ne 0 ] ; then
echo "$PROG: Error: curl failed" >&2
exit 1
fi

TEST_RESULT=`echo "$RESULT" | grep '"trans"'`
if [ -n "$TEST_RESULT" ] ; then ## for empty translation result {"src":"en"}
echo "$RESULT" | sed 's/.*"trans":"\([^"]*\)".*/\1/'
fi

  • urieで翻訳したいフレーズをURIエンコード

  • curlで翻訳したいフレーズをGETで送信

  • sedで結果をパース

UserAgentがcurlだと拒絶される、空だと翻訳結果がKOI8-Rで返ってきてUTF-8の環境でパースしづらくなるのでIEに偽装しています。UAがIEやFirefoxだとUTF-8で結果が返ってくるみたい。以前書いたコードと異なり"http://translate.google.com/"でなく"http://translate.google.com/translate_a/t"に翻訳したいフレーズを送信しています。
{"sentences":[{"trans":"short","orig":"короткий","translit":""}],"dict":[{"pos":"","terms":["s"]},{"pos":"adjective","terms":["short","brief","little","small","short","skimpy"]}],"src":"ru"}
こんな感じの翻訳結果をGoogleから受信できます。"http://translate.google.com/"のものより短い!パースし易い!!URIエンコーディングにCで書いたコマンド(urie)を使っています。GETで送信(curl -G)するとPOSTするより送信データーが69バイト短くて済むのでそうしてます。


テスト翻訳
$ ./gtrans 'здравств'
hello

$ ./gtrans 'я из Японии'
I'm from Japan

$ ./gtrans 'только хорошие умирают молодыми'
only the good die young

$ ./gtrans 'through ascii phrase'
through ascii phrase

$ ./gtrans ' '
(出力なし)

$ ./gtrans '誤って日本語を入力'
誤っ て 日本語 を 入力

$ ./gtrans `echo "えすじす" | iconv -t SJIS-WIN`
????????
まずまず動作。LANG=ja_JP.UTF-8のシェルでテスト翻訳しました。
文字コードが混在した環境で自動翻訳しようとすると翻訳フレーズごとに文字コードの自動判定も必要になりそう。ロシア版ポトリスではロシア語にCP1251、日本語にSJIS-WINが使われてるみたい。


環境

OS: Linux
debian-lenny
 

(Code: c) urie

URIエンコーディングを意図したコードです。
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#define BLOCK 1024*8


int main(int argc, char *argv[])
{
int n;
char buf[BLOCK + 1];
unsigned char *str = NULL;
int size_str = 0;

/* read stdin */
while (1) {
n = fread(buf ,1 , BLOCK, stdin);
if (n == 0) {
str = realloc(str, size_str + 1);
break;
} else if (n < 0) {
perror("fread");
return -1;
}
str = realloc(str, size_str + n);
memcpy(str + size_str, buf, n);
size_str += n;
}
*(str + size_str) = '\0';

/* uri encoding */
while (*str) {
printf("%%%02X", *str);
str++;
}

return 0;
}
実用には問題ないけどアスキーな文字までエンコードしてしまう。GLibのg_uri_escape_stringとか使えば、その辺キッチリできそう。
RFC読まなきゃ…と思って単純に"Uniform Resource Identifier"で検索したら20文献多すぎ挫折しました。


URIエンコーディング関連? RFC

2079 Definition of an X.500 Attribute Type and an Object Class to Hold
Uniform Resource Identifiers (URIs). M. Smith. January 1997. (Format:
TXT=8757 bytes) (Status: PROPOSED STANDARD)

2168 Resolution of Uniform Resource Identifiers using the Domain Name
System. R. Daniel, M. Mealling. June 1997. (Format: TXT=46528 bytes)
(Obsoleted by RFC3401, RFC3402, RFC3403, RFC3404) (Updated by
RFC2915) (Status: EXPERIMENTAL)

2396 Uniform Resource Identifiers (URI): Generic Syntax. T.
Berners-Lee, R. Fielding, L. Masinter. August 1998. (Format:
TXT=83639 bytes) (Obsoleted by RFC3986) (Updates RFC1808, RFC1738)
(Updated by RFC2732) (Status: DRAFT STANDARD)

2838 Uniform Resource Identifiers for Television Broadcasts. D.
Zigmond, M. Vickers. May 2000. (Format: TXT=11405 bytes) (Status:
INFORMATIONAL)

3305 Report from the Joint W3C/IETF URI Planning Interest Group:
Uniform Resource Identifiers (URIs), URLs, and Uniform Resource Names
(URNs): Clarifications and Recommendations. M. Mealling, Ed., R.
Denenberg, Ed.. August 2002. (Format: TXT=21793 bytes) (Status:
INFORMATIONAL)

3404 Dynamic Delegation Discovery System (DDDS) Part Four: The Uniform
Resource Identifiers (URI). M. Mealling. October 2002. (Format:
TXT=40124 bytes) (Obsoletes RFC2915, RFC2168) (Status: PROPOSED
STANDARD)

3617 Uniform Resource Identifier (URI) Scheme and Applicability
Statement for the Trivial File Transfer Protocol (TFTP). E. Lear.
October 2003. (Format: TXT=11848 bytes) (Status: INFORMATIONAL)

3761 The E.164 to Uniform Resource Identifiers (URI) Dynamic
Delegation Discovery System (DDDS) Application (ENUM). P. Faltstrom,
M. Mealling. April 2004. (Format: TXT=41559 bytes) (Obsoletes
RFC2916) (Status: PROPOSED STANDARD)

3969 The Internet Assigned Number Authority (IANA) Uniform Resource
Identifier (URI) Parameter Registry for the Session Initiation
Protocol (SIP). G. Camarillo. December 2004. (Format: TXT=12119
bytes) (Updates RFC3427) (Also BCP0099) (Status: BEST CURRENT
PRACTICE)

3986 Uniform Resource Identifier (URI): Generic Syntax. T.
Berners-Lee, R. Fielding, L. Masinter. January 2005. (Format:
TXT=141811 bytes) (Obsoletes RFC2732, RFC2396, RFC1808) (Updates
RFC1738) (Also STD0066) (Status: STANDARD)

4051 Additional XML Security Uniform Resource Identifiers (URIs). D.
Eastlake 3rd. April 2005. (Format: TXT=33368 bytes) (Status: PROPOSED
STANDARD)

4088 Uniform Resource Identifier (URI) Scheme for the Simple Network
Management Protocol (SNMP). D. Black, K. McCloghrie, J.
Schoenwaelder. June 2005. (Format: TXT=43019 bytes) (Status: PROPOSED
STANDARD)

4501 Domain Name System Uniform Resource Identifiers. S. Josefsson.
May 2006. (Format: TXT=20990 bytes) (Status: PROPOSED STANDARD)

4622 Internationalized Resource Identifiers (IRIs) and Uniform
Resource Identifiers (URIs) for the Extensible Messaging and Presence
Protocol (XMPP). P. Saint-Andre. July 2006. (Format: TXT=49968 bytes)
(Obsoleted by RFC5122) (Status: PROPOSED STANDARD)

4904 Representing Trunk Groups in tel/sip Uniform Resource Identifiers
(URIs). V. Gurbani, C. Jennings. June 2007. (Format: TXT=41027 bytes)
(Status: PROPOSED STANDARD)

4967 Dial String Parameter for the Session Initiation Protocol Uniform
Resource Identifier. B. Rosen. July 2007. (Format: TXT=12659 bytes)
(Status: PROPOSED STANDARD)

5017 MIB Textual Conventions for Uniform Resource Identifiers (URIs).
D. McWalter, Ed.. September 2007. (Format: TXT=14826 bytes) (Status:
PROPOSED STANDARD)

5122 Internationalized Resource Identifiers (IRIs) and Uniform
Resource Identifiers (URIs) for the Extensible Messaging and Presence
Protocol (XMPP). P. Saint-Andre. February 2008. (Format: TXT=55566
bytes) (Obsoletes RFC4622) (Status: PROPOSED STANDARD)

5341 The Internet Assigned Number Authority (IANA) tel Uniform
Resource Identifier (URI) Parameter Registry. C. Jennings, V.
Gurbani. September 2008. (Format: TXT=13944 bytes) (Updates RFC3966)
(Status: PROPOSED STANDARD)

5527 Combined User and Infrastructure ENUM in the e164.arpa Tree. M.
Haberler, O. Lendl, R. Stastny. May 2009. (Format: TXT=20733 bytes)
(Status: INFORMATIONAL)


環境

OS: Linux
debian-lenny
 

2009年12月1日火曜日

(Code: sh) gtrans

Google Translate を利用して露英翻訳するシェルスクリプトです。
#!/bin/sh

if [ -z "$1" ] ; then
  echo "Error: need an arg (Russian phrase)" >&2
  exit 1
elif [ $# -gt 1 ] ; then
  echo "Error: too many args. need just an arg (Russian phrase)" >&2
  exit 1
fi
TEXT="$1"

UA='Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)'
curl -Ss -m 10 -A "$UA" http://translate.google.com/ -d js=n -d prev=_t -d hl=en -d ie=UTF-8 -d text="$TEXT" -d file= -d sl=ru -d tl=en | awk 'NR == 8' | sed 's/.*<span id=result_box class="short_text"><[^>]\+>\([^/]\+\)<\/.*/\1/' | xmlstarlet unesc

  • curlで翻訳したいフレーズをPOST

  • awkとsedで結果をパース

  • xmlstarletで文字参照("&#39;"みたいなの)を解除

UserAgentがcurlだと拒絶される、空だと翻訳結果がKOI8-Rで返ってきてUTF-8の環境でパースしづらくなるのでIEに偽装しています。UAがIEやFirefoxだとUTF-8で結果が返ってくるみたい。


テスト翻訳
$ ./gtrans 'здравств'
hello

$ ./gtrans 'я из Японии'
I'm from Japan

$ ./gtrans 'только хорошие умирают молодыми'
only the good die young

$ ./gtrans
Error: need an arg (Russian phrase)

$ ./gtrans a b
Error: too many args. need just an arg (Russian phrase)
まずまず動いた!LANG=ja_JP.UTF-8のシェルでテスト翻訳しました。
ロシア版ポトリスのチャット自動翻訳に向け、ググル先生翻訳へPOSTするデーターの確認用に書いてみました。


環境

OS: Linux
debian-lenny