What’s New in Python 2.4

著者:A.M. Kuchling

この文書は 2005 年 3 月 30 日にリリースされた Python 2.4.1 の新機能について解説します。

Python 2.4 は、真ん中サイズ、のリリースです。急進的だった Python 2.2 ほどには多くの変更をしていませんが、保守的だった 2.3 よりは多くの機能を導入しています。新しい言語機能で最も重要なのが、関数デコレータとジェネレータ式です。ほかのほとんどの変更は標準ライブラリに対するものです。

Python 2.3 から 2.4 の CVS 変更ログによれば、適用されたパッチは 481、フィックスされたバグは 502 ありました。ともに、少なく見積もって、です。

このドキュメントは個々の新機能の完全な詳細を提供するのではなくて、簡易な概要を提供することを目的にしています。完全な詳細が知りたければ、 Python ライブラリリファレンス、Python リファレンスマニュアルのような Python 2.4 のドキュメントを参照してください。多くの場合個別の新機能についての実装の説明やデザインの根拠については PEP に託されています。

PEP 218: ビルトインの集合オブジェクト

Python 2.3 では sets を導入しました。集合データ型の C 実装が Python コアに新たに、2 つの新しいビルトイン型 set(iterable)()frozenset(iterable)() として追加されています。これらは要素が集合に属しているかのメンバシップテスト、シーケンスからの重複の削除、それに和集合 (union)、共通集合 (intersection)、 差 (difference)、対称差 (symmetric difference) といった数学演算を高速に行います:

>>> a = set('abracadabra')              # form a set from a string
>>> 'z' in a                            # fast membership testing
False
>>> a                                   # unique letters in a
set(['a', 'r', 'b', 'c', 'd'])
>>> ''.join(a)                          # convert back into a string
'arbcd'

>>> b = set('alacazam')                 # form a second set
>>> a - b                               # letters in a but not in b
set(['r', 'd', 'b'])
>>> a | b                               # letters in either a or b
set(['a', 'c', 'r', 'd', 'b', 'm', 'z', 'l'])
>>> a & b                               # letters in both a and b
set(['a', 'c'])
>>> a ^ b                               # letters in a or b but not both
set(['r', 'd', 'b', 'm', 'z', 'l'])

>>> a.add('z')                          # add a new element
>>> a.update('wxy')                     # add multiple new elements
>>> a
set(['a', 'c', 'b', 'd', 'r', 'w', 'y', 'x', 'z'])
>>> a.remove('x')                       # take one element out
>>> a
set(['a', 'c', 'b', 'd', 'r', 'w', 'y', 'z'])

frozenset() 型は set()immutable 版です。 immutable かつハッシュ可能なので、辞書のキーやほかの set のメンバとして使えるでしょう。

2.3 で追加された sets モジュールは標準ライブラリに残されていて、 SetImmutableSet をサブクラス化したければ便利かもしれません。今のところこれを撤廃する予定はありません。(—訳注: sets モジュールは 2.6 で非推奨となっています。—)

参考

PEP 218 - 集合オブジェクト型をビルトインに追加する
元々は Greg Wilson によって提案され、完全な実装は Raymond Hettinger によってなされました。

PEP 237: 長整数と整数を一体化していく

この PEP の非常に長期に渡る移行は Python 2.2 に始まり、Python 2.4 でさらにもう一歩前進しています。2.3 では int/long の一体化後に異なる振る舞いをする整数演算をすると FutureWarning 警告を出して、結果の値は (プラットフォーム依存で) 32 ビットまたは 64 ビットに制限していました。2.4 ではこれらの式はもう警告は出さず、代わりにいつでも(2.3 とは違った)長整数となる結果をはじき出します。

問題を起こしうる式は主として左シフトで、そして長い 16 進リテラルと 8 進リテラルです。例えば 2 << 32 は 2.3 では警告とともに 32 ビットプラットフォームでは結果は 0 になります。Python 2.4 ではこの式は正しい答えの 8589934592 になります。

参考

PEP 237 - 長整数と整数を一体化していく
オリジナルの PEP は Moshe Zadka と GvR (Guido van Rossum) によって書かれました。.2.4 での変更については Kalle Svensson によって実装されました。

PEP 289: ジェネレータ式

Python 2.2 で導入されたイテレータ機能と 2.3 で追加された itertools モジュールによって、一度に全てをメモリに持つことなく大きなデータセットを回すループ処理を書くのが簡単になりました。全てのアイテムを含む Python リストを生成してしまうので、リスト内包表記はこの考えにはうまく馴染みません。これによる不可避のメモリへのオブジェクト全展開は、データセットが巨大な場合は問題です。関数型スタイルのプログラムを書こうとして、このように書くのは自然かもしれません:

links = [link for link in get_all_links() if not link.followed]
for link in links:
    ...

こうではなく

for link in get_all_links():
    if link.followed:
        continue
    ...

最初の形の方が簡潔でおそらく読みやすいですが、扱っているのがとても多くのリンクオブジェクトであるならば、全てのリンクオブジェクトが一気にメモリに載らないように二つ目の形で書く必要がありました。

ジェネレータ式はリスト内包と似た動作をしますが、リスト全体を実体化しません; 代わりにそれは、要素を一つずつ返すジェネレータを返します。上述の例はこう書けます:

links = (link for link in get_all_links() if not link.followed)
for link in links:
    ...

上の例でのように、ジェネレータ式は常に括弧の中に書かなければなりません。関数呼び出しを囲む括弧もそれに含まれるので、関数にそのまま渡すイテレータを作りたければこれで良いです:

print sum(obj.count for obj in list_all_objects())

ジェネレータ式はリスト内包とは色々小さい点で違います。最も顕著なのはループ変数 (上の例での obj) がジェネレータ式の外からアクセス不能なことです。リスト内包はループの制御変数が最後に代入された値で残ります; 将来のバージョンの Python では、この振る舞いはリスト内包がこの点でジェネレータ式と同じになるように変更されます。 (—訳注: Python 2.7 でもリスト内包のこの振る舞いは変わっておらず、警告ともなりません。制御変数が内包のスコープ外で可視でなくなったのは Python 3.0 からです。—)

参考

PEP 289 - ジェネレータ式
Raymond Hettinger によって提案され、Hye-Shik Chang に導かれた早期の尽力によって Jiwon Seo により実装されました。

PEP 292: より単純な文字列置換 (string substitution)

標準ライブラリに、文字列を変数で置換するための代替メカニズムをもたらす新しいくつかのクラスが追加されました; この置換のスタイルは、訓練されていないユーザがテンプレートを編集する必要があるようなアプリケーションにとって、より良いものでしょう。

変数置換を名前で行うためのいつもの方法は % 演算子です:

>>> '%(page)i: %(title)s' % {'page':2, 'title': 'The Best of Times'}
'2: The Best of Times'

テンプレート文字列を書くのに、閉じ括弧のあとの is を忘れやすいです。これはそのテンプレートが Python モジュール内にあるなら大問題でもありません。コードを実行し、「サポートされないフォーマット文字 (unsupported format character)」な ValueError を喰らい、問題を直すだけのことです。ですが、例えば Mailman のようなアプリケーションを考えてみてください。テンプレート文字列や翻訳は、Python 言語について承知していないユーザが編集するのです。フォーマット文字列の構文はそのようなユーザに説明するには複雑で、彼らが間違いをやらかした場合には、親切なフィードバックを彼らに与えるのは難しいのです。

PEP 292 は string モジュールに Template クラスを追加します。これは置換を指示するのに $ を使います:

>>> import string
>>> t = string.Template('$page: $title')
>>> t.substitute({'page':2, 'title': 'The Best of Times'})
'2: The Best of Times'

辞書にキーが見つからない場合、 substitute() メソッドは KeyError を送出します。 safe_substitute() メソッドもあり、これはキー不在を無視します:

>>> t = string.Template('$page: $title')
>>> t.safe_substitute({'page':3})
'3: $title'

参考

PEP 292 - より単純な文字列置換 (string substitution)
Barry Warsaw 著、実装

PEP 318: 関数とメソッドのためのデコレータ

Python 2.2 は Python オブジェクトモデルを静的メソッド、クラスメソッドを追加することで拡張はしましたが、それらを定義する新たな手段を提供するような Python 構文の拡張はしませんでした。このため、 def でメソッドは普通に書いたのち、新型メソッドとしての関数へ仕立て上げる staticmethod() または classmethod() にその結果のメソッドを渡す、という手順を取る必要がありました。このような具合でした:

class C:
   def meth (cls):
       ...

   meth = classmethod(meth)   # Rebind name to wrapped-up class method

メソッドがとても長かったりすると、関数のボディの後ろの classmethod() 呼び出しは見失ったり忘れたりしやすいものでした。

そのような定義をもっと読みやすくするために何か構文を追加する、という意図は常にありましたが、2.2 のリリース時点では良い構文は明らかではありませんでした。本日時点でさえ いまだ 明らかとは言えませんが、ユーザは静的メソッドとクラスメソッドを簡単に手にする手段を注文し続けています; 新たな構文的機能はこの要求に合うように追加されました。

この新たな機能は「関数デコレータ (function decorators)」と呼ばれます。この名前は classmethod(), staticmethod(), とその仲間たちが関数オブジェクトに追加的な情報を保存することから着想を得たものです; それらは関数をより多くの詳細で デコレート (修飾) している というわけです。

記法は Java より拝借して '@' 文字を指示子として使います。この新たな構文を使うと、上記の例はこのように書けます:

class C:

   @classmethod
   def meth (cls):
       ...

@classmethodmeth=classmethod(meth) 代入の速記法です。より一般的には、このように書けば…:

@A
@B
@C
def f ():
    ...

これはデコレータ前史の以下コードと等価です:

def f(): ...
f = A(B(C(f)))

デコレータは関数定義の前になければなりません。一行ごとに一つのデコレータです。 def ステートメントと同じ行にあってはダメです。つまり @A def f(): ... は不正です。モジュールレベルかクラス内の関数定義のみをデコレート出来ます; クラス定義はデコレート出来ません。(— 訳注: クラス定義のデコレータは Python 2.6 で追加されました (PEP 3129) 。—)

デコレータはただの関数です。引数としてデコレートされる関数を取り、同じ関数か何か新しいオブジェクトを返すだけの。結果がほかのデコレータ適用されるの出ない限りは、デコレータの戻り値は呼び出し可能である必要はありません (普通はそうですが)。あなた自身のデコレータを書くのは簡単です。続く単純な例は、関数オブジェクトに単に属性をセットするだけのものです:

>>> def deco(func):
...    func.attr = 'decorated'
...    return func
...
>>> @deco
... def f(): pass
...
>>> f
<function f at 0x402ef0d4>
>>> f.attr
'decorated'
>>>

もう少しだけ現実的な例として、続く例ではデコレータに、与えられた引数が整数かどうかチェックさせてみます:

def require_int (func):
    def wrapper (arg):
        assert isinstance(arg, int)
        return func(arg)

    return wrapper

@require_int
def p1 (arg):
    print arg

@require_int
def p2(arg):
    print arg*2

PEP 318 にある例はこのアイディアのもっと凝った版が含まれていて、それは要求型の指定と戻り値のチェックの両方が出来ます。

デコレータ関数は引数を取ることが出来ます。引数が与えられた場合、あなたのデコレータ関数はそれら引数のみで呼び出され、そして新しいデコレータを返さなければなりません; この関数は単一の関数を取らなければならず、前述のように関数を返さなければなりません。言い換えると、 @A @B @C(args) はこうなります:

def f(): ...
_deco = C(args)
f = A(B(_deco(f)))

これが正しいと理解するには少しばかり頭をひねる必要がありますが、難しすぎることはありません。

デコレータに関係した小さな変更は、関数の func_name 属性が書き込み可能になったことです。この属性はトレースバックでの関数名表示に使われますので、デコレータは構築して返却する新しい関数の名前を変更すべきです。

参考

PEP 318 - 関数、メソッド、クラスのためのデコレータ
Kevin D. Smith, Jim Jewett, Skip Montanaro により著されました。数多くの人々が関数デコレータ実装のパッチを書きましたが、実際にチェックインされたものは Mark Russell が書いた #979728 でした。
https://wiki.python.org/moin/PythonDecoratorLibrary
数多くのデコレータ例を含む Wiki ページ。

PEP 322: 逆順のイテレーション

新しいビルトイン関数 reversed(seq) は、シーケンスを受け取って、シーケンスの要素を逆順にループするイテレータを返します:

>>> for i in reversed(xrange(1,4)):
...    print i
...
3
2
1

range(1,4)[::-1] のようにする拡張スライスでのやり方に比較して reversed() は読みやすく、実行が高速で、大体の場合はメモリ使用が少なく済みます。

reversed() は任意のイテレータは受け付けず、シーケンスのみ受け付けることに注意してください。イテレータを逆順にしたければ、最初に list() でリストに変換してください:

>>> input = open('/etc/passwd', 'r')
>>> for line in reversed(list(input)):
...   print line
...
root:*:0:0:System Administrator:/var/root:/bin/tcsh
  ...

参考

PEP 322 - 逆順のイテレーション
Raymond Hettinger 著、実装.

PEP 324: 新しい subprocess モジュール

標準ライブラリはサブプロセスを実行するのに数多くの手段を提供しています。これらは異なった機能、異なった複雑さのレベルを提供しています。 os.system(command) の利用は簡単です。ですがこれは遅く (コマンドを実行するシェルを起動しますので)、危険でもあります (シェルのメタ文字を注意深くエスケープする必要があります)。 popen2 モジュールが提供するクラス群はサブプロセスより標準出力、標準エラー出力をキャプチャ出来ますが、名前付けがややこしいです。 subprocess モジュールはこれを綺麗にし、必要とするであろう機能全てを与える一体化されたインターフェイスを提供しています。

popen2 のクラス所蔵品群の代わりに subprocess には Popen と呼ばれる単一のクラスが含まれています。これのコンストラクタは数多くの異なるキーワード引数を取ります:

class Popen(args, bufsize=0, executable=None,
            stdin=None, stdout=None, stderr=None,
            preexec_fn=None, close_fds=False, shell=False,
            cwd=None, env=None, universal_newlines=False,
            startupinfo=None, creationflags=0):

args は普通は文字列のシーケンスで、サブプロセスとして実行するプログラムへの引数群となります。 (shell 引数が真の場合は args はシェルに解釈を任せるために渡す文字列に出来、つまりこの場合 os.system() と同じことをします。)

stdin, stdout, stderr はサブプロセスの入力・出力・エラーのストリームを指定します。ファイルオブジェクトかファイル記述子を渡すことが出来ます。あるいは定数 subprocess.PIPE を渡してサブプロセスと親とのパイプを作成することが出来ます。

コンストラクタには多くの便利なオプションがあります:

  • close_fds はサブプロセス実行前に全てのファイル記述子をクローズすることを要求します。
  • cwd はサブプロセスを実行する作業ディレクトリを指定します (デフォルトは親の作業ディレクトリです)。
  • env は環境変数を指定する辞書です。
  • preexec_fn は子が開始する前に呼び出される関数です。
  • universal_newlines で、子の入出力を、Python の universal newlines 機能で開きます。

Popen インスタンスを作ってしまえば、あとはサブプロセスが終了するまで停止するために wait() メソッド呼び出すことが出来、停止することなく終了をチェックするのに poll() メソッドを呼び出すことが出来、あるいは communicate(data) を呼び出して、子の標準入力に data を送信することが出来ます。 communicate(data) はサブプロセスが送信する標準出力と標準エラー出力を読み込み、タプル (stdout_data, stderr_data) を返します。

call()Popen コンストラクタにその引数を流し込むショートカットで、コマンドが終了するまで待ち、サブプロセスの終了コードを返します。これは os.system() に対する安全な置き換えとなりえます:

sts = subprocess.call(['dpkg', '-i', '/tmp/new-package.deb'])
if sts == 0:
    # Success
    ...
else:
    # dpkg returned an error
    ...

コマンドはシェルを使うことなく呼び出されます。もしシェルを本当に使いたいのであればキーワード引数として shell=True を与えた上でシーケンスの代わりに文字列を与えることが出来ます:

sts = subprocess.call('dpkg -i /tmp/new-package.deb', shell=True)

PEP にはシェルと Python コードの様々な例が採られていて、シェルスクリプトをいかにして subprocess を用いて Python コードに変換するかを示しています。PEP のこのセクションを読むことを強くお勧めします。

参考

PEP 324 - subprocess - プロセスのための新たなモジュール
Fredrik Lundh 他によるサポートによって、Peter Åstrand により PEP 著と実装が行われました。

PEP 327: Decimal データ型

Python は常に根底となる C double に基く浮動小数点(FP=floating-point)数をデータ型としてサポートします。しかしながら、ほとんどのプログラミングが浮動小数点数を提供する一方で、多くの人々 (プログラマでさえも) は浮動小数点数が小数をいくらか正確には表現出来ないことを知りません。新しい Decimal 型はこれら小数を、ユーザが指定する精度限界まで正確に表現出来ます。

なぜ Decimal が必要なのか?

浮動小数点数が使う表現方法に起因する制約があります。浮動小数点数は 3 つの構成要素から成ります:

  • 符号(sign)。正または負。
  • 仮数部(mantissa)。一桁の 2 進値に端数部が続きます。例えば 2 進数で 1.011 + 0/2 + 1/4 で 10 進表記で 1.25 です。
  • 指数部(exponent)。小数点がその数値のどこに位置するかを表します。

例えば 1.25 は、正の符号を持ち、仮数部の値は (2 進数で) 1.01 で、指数部は 0 です (小数点は移動の必要がありません)。5 は同じ符号と仮数部を持ち、指数部は、仮数部が 4 倍なので 2 (2 を底とする 2 の 冪乗) です; 1.25 * 4 は 5 です。

現代的なシステムでは普通、浮動小数点数のサポートは IEEE 754 と名付けられた標準に従っています。 C の double 型は普通は 64 ビットの IEEE 754 数として実装され、これは仮数部として 52 ビットを使います。つまり数値は 52 ビットで記述される精度しか持てません。展開が循環に続く数値を表現しようと試みると、展開は 52 ビットより後ろは打ち切られます (訳注: expansion(展開) は 1/2 + 1/2**2 + … 形式の級数展開を踏まえた表現。わかると思いますが一応)。不幸にもほとんどのソフトウェアは出力を 10 進数で行い、しばしば 10 進数でそうでないのに 2 進数では循環小数になります。例えば 10 進での 1.1 は 2 進で 1.0001100110011 ... です; .1 = 1/16 + 1/32 + 1/256 プラスこれの無限繰り返し。IEEE 754 は 52 桁以降を切り落とす必要があるので、表現が少し不正確になります。

ときどきあなたはこの不正確さを、数値を表示する際に目にするでしょう:

>>> 1.1
1.1000000000000001

この不正確さは数値を表示する際にいつでも目に見えるわけではありません。浮動小数点数から文字列への変換が C ライブラリによって提供されていて、C ライブラリのほとんどが賢明な出力を生成しようと頑張っているからです。それが表示されないにしても、不正確さはそれでも存在していて、後続の計算への誤差が大きくなりえます。

多くのアプリケーションではこれは重要ではありません。モニタにプロットして表示するのに 1.1 と 1.1000000000000001 の差は小さすぎて見えません。大抵は出力を一定の桁位置までに制限して出力するものですし、2 やら 3 やら 8 桁などの位置で丸めたりすれば誤差は決して露わにはなりません。ですがそれが重要なアプリケーションにとっては、あなた自身のカスタム数学ルーチンのための実装作業は膨大になります。

こうして Decimal 型が作られました。

Decimal

新しいモジュール decimal が Python 標準ライブラリに追加されました。これには 2 つのクラス Decimal, Context を含みます。 Decimal インスタンスは数値を表現し、 Context インスタンスは、精度やデフォルトの丸めモードなどのさまざまな設定をまとめるのに使われます。

Decimal のインスタンスは普通の Python 整数や浮動小数点数のように immutable です。 Decimal のインスタンスは整数や文字列から構築出来ます:

>>> import decimal
>>> decimal.Decimal(1972)
Decimal("1972")
>>> decimal.Decimal("1.1")
Decimal("1.1")

符号(sign)、10進数値のタプルで表した仮数部(mantissa)、指数部(exponent)を含んだタプルを渡すことも出来ます:

>>> decimal.Decimal((1, (1, 4, 7, 5), -2))
Decimal("-14.75")

注意: 符号ビットは負符号の有無なので、 0 が正、1 が負です。

浮動小数点数からの変換は少々問題です: 1.1 を表現する浮動小数点数は 10 進数値の正確な 1.1 に変換すべきでしょうか、それとも 1.1 が持つどんな不正確さもそのまま持ち込むべきでしょうか? 決定は、問題をはぐらかして、その種の変換を API の範疇外とする、というものでした。代わりにあなたは浮動小数点数を望みの精度で文字列に変換して、その文字列を Decimal コンストラクタに渡す必要があります:

>>> f = 1.1
>>> decimal.Decimal(str(f))
Decimal("1.1")
>>> decimal.Decimal('%.12f' % f)
Decimal("1.100000000000")

いったん Decimal を手にしてしまえばあとは普通の数学演算が使えます。制約の一つ: べき乗には整数の指数しか使えません:

>>> a = decimal.Decimal('35.72')
>>> b = decimal.Decimal('1.73')
>>> a+b
Decimal("37.45")
>>> a-b
Decimal("33.99")
>>> a*b
Decimal("61.7956")
>>> a/b
Decimal("20.64739884393063583815028902")
>>> a ** 2
Decimal("1275.9184")
>>> a**b
Traceback (most recent call last):
  ...
decimal.InvalidOperation: x ** (non-integer)

Decimal インスタンスと整数は混ぜて使えますが、浮動小数点数とは出来ません:

>>> a + 4
Decimal("39.72")
>>> a + 4.5
Traceback (most recent call last):
  ...
TypeError: You can interact Decimal only with int, long or Decimal data types.
>>>

Decimal 数を math, cmath モジュールで使うことは出来ますが、演算実行前にその場で浮動小数点数に変換されて、結果精度と正確性を失う可能性があります。戻り値は普通の浮動小数点数であって Decimal ではありません:

>>> import math, cmath
>>> d = decimal.Decimal('123456789012.345')
>>> math.sqrt(d)
351364.18288201344
>>> cmath.sqrt(-d)
351364.18288201344j

Decimal インスタンスは Decimal インスタンスを返す sqrt() メソッドを持っていますが、三角関数のようななにかほかのことが必要な場合は、それらを実装する必要があるでしょう。:

>>> d.sqrt()
Decimal("351364.1828820134592177245001")

Context

Context クラスのインスタンスは decimal 演算についてのいくつかの設定をカプセル化しています:

  • prec は精度で、小数桁数です。
  • rounding は丸めのモードを指定します。 decimal にはこの値に渡せる定数が定義されています: ROUND_DOWN, ROUND_CEILING, ROUND_HALF_EVEN, それに色々。
  • traps は特定のエラー状態に出会った場合に何が起こるべきかを指定する辞書です: 例外を発生させるか値を返すかどちらかです。いくつかのエラー状態の例としては、ゼロ除算、精度損失、オーバーフローがあります。

スレッドローカルなデフォルトのコンテキストを、 getcontext() を呼び出すことで利用出来ます; デフォルトの精度、丸めモード、トラップ処理に代えてこのコンテキストのプロパティを変更出来ます。続く例はデフォルトコンテキストの精度を変更する効果についてお見せします:

>>> decimal.getcontext().prec
28
>>> decimal.Decimal(1) / decimal.Decimal(7)
Decimal("0.1428571428571428571428571429")
>>> decimal.getcontext().prec = 9
>>> decimal.Decimal(1) / decimal.Decimal(7)
Decimal("0.142857143")

エラー状態の場合のデフォルトアクションを選択出来ます; モジュールは無限大(infinity)あるいは非数(not-a-number: NaN)を返すか、例外を投げるかです:

>>> decimal.Decimal(1) / decimal.Decimal(0)
Traceback (most recent call last):
  ...
decimal.DivisionByZero: x / 0
>>> decimal.getcontext().traps[decimal.DivisionByZero] = False
>>> decimal.Decimal(1) / decimal.Decimal(0)
Decimal("Infinity")
>>>

Context インスタンスは to_eng_string(), to_sci_string() のような、数値の書式化のための色々なメソッドも持っています。

さらに詳しく知りたければ decimal モジュールのドキュメントを読んで下さい。これには簡単に始められるチュートリアルとリファレンスが入っています。

参考

PEP 327 - Decimal データ型
Facundo Batista によって著され、Facundo Batista, Eric Price, Raymond Hettinger, Aahz, Tim Peters らによって実装されました。
http://www.lahey.com/float.htm
この記事は浮動小数点数の不正確さが起こりうるたくさんの問題について、Fortran コードを使って解説しています。
http://speleotrove.com/decimal/
10 進数ベースの表現についての記述です(訳注: decimal-based は小数ベースとも 10 進数ベースとも取れるのですが、後者にしておきました)。この表現方法は標準として提案されていて、この Python の decimal 型の基礎になっています。この題材の多くが Rexx 言語設計者である Mike Cowlishaw によって著されました。

PEP 328: マルチラインインポート

言語の変更の一つは小さな文法的な微調整で、モジュールからたくさんの名前をインポートするのを簡単にするためのものです。 from module import names 文において、 names はカンマ区切りのシーケンスです。シーケンスがとても長くなった場合、同じモジュールからのインポート文を何度も書くか、行末をバックスラッシュでエスケープするかするでしょう、このように:

from SimpleXMLRPCServer import SimpleXMLRPCServer,\
            SimpleXMLRPCRequestHandler,\
            CGIXMLRPCRequestHandler,\
            resolve_dotted_attribute

Python 2.4 での文法的な変更は、単純に names を丸括弧で囲んでも良い、とするだけのものです。Python は丸括弧内の改行を無視しますので、バックスラッシュはもう必要ありません:

from SimpleXMLRPCServer import (SimpleXMLRPCServer,
                                SimpleXMLRPCRequestHandler,
                                CGIXMLRPCRequestHandler,
                                resolve_dotted_attribute)

その PEP は、全ての import 文が絶対インポートであること、相対インポートであることを示すには . 文字で開始すること、の提案もしています。PEP のこの部分は Python 2.4 では実装されていませんが、 Python 2.5 向けには完了しています。

参考

PEP 328 - マルチラインインポートと、絶対/相対インポート
Aahz 著. Multi-line imports は Dima Dorfman により実装。

PEP 331: Locale に依存しない Float/String 変換

locale モジュールにより、Python ソフトウェアは特定の国や言語の地域化をする色々な変換や表示の変換を選択出来ます。ところがこのモジュールは、数値ロケールを変更しないように気を配らなければなりませんでした。というのも Python 内の色んな関数実装が、数値ロケールが 'C' ロケールにセットされたままであることを必要としていたからです。しばしばこれは、コードが C ライブラリの atof() 関数を使っていることに原因がありました。

Not setting the numeric locale caused trouble for extensions that used third-party C libraries, however, because they wouldn’t have the correct locale set. The motivating example was GTK+, whose user interface widgets weren’t displaying numbers in the current locale.

この PEP に記述された解法は、ロケール設定を無視して ASCII のみの変換を実施する 3 つの新しい Python API 関数を追加することです:

  • PyOS_ascii_strtod(str, ptr)PyOS_ascii_atof(str, ptr) はともに、文字列を C の double に変換します。
  • PyOS_ascii_formatd(buffer, buf_len, format, d)double を ASCII 文字列に変換します。

The code for these functions came from the GLib library (https://developer.gnome.org/glib/stable/), whose developers kindly relicensed the relevant functions and donated them to the Python Software Foundation. The locale module can now change the numeric locale, letting extensions such as GTK+ produce the correct results.

参考

PEP 331 - Locale に依存しない Float/String 変換
Christian R. Reis 著, 実装 Gustavo Carneiro.

その他の言語変更

以下が、Python 2.4 言語コアに加えられた全ての変更点です。

  • 関数とメソッドのためのデコレータが追加されました。 (PEP 318).

  • ビルトインの set() 型と frozenset() 型が追加されました (PEP 218)。ほか新たなビルトイン関数 reversed(seq) 関数が追加されました (PEP 322)。

  • ジェネレータ式が追加されました (PEP 289).

  • いくらかの数値式は、もう 32 ビットや 64 ビットに制限されません (PEP 237).

  • from module import names ステートメントにおいて、 names を括弧で囲むことが出来るようになりました (PEP 328).

  • dict.update() メソッドが dict コンストラクタと同じ形式の引数を取れるようになりました。これには任意のマッピング、キー/値ペアのイテラブルとキーワード引数を含みます。 (Contributed by Raymond Hettinger.)

  • 文字列の ljust(), rjust(), center() メソッドで空白以外の埋め文字を省略可能引数で指定出来るようになりました。 (Contributed by Raymond Hettinger.)

  • ほかに、文字列には rsplit() メソッドも追加されています。これは split() メソッドと似た動きをしますが、後ろから順に分割します (Contributed by Sean Reifschneider.)

    >>> 'www.python.org'.split('.', 1)
    ['www', 'python.org']
    'www.python.org'.rsplit('.', 1)
    ['www.python', 'org']
    
  • リストの sort() メソッドに 3 つのキーワード引数 cmp, key, reverse が追加されています。これらパラメータは sort() のある種の用法を単純にします。これらは全て省略可能です。

    cmp パラメータには比較関数を渡します。これは 2 つのパラメータを取り、パラメータの比較結果に応じて -1, 0, +1 のいずれかを返します。この関数はリストのソートに使われます。これまでの sort() に唯一許されていたのがこの cmp パラメータでした。

    key には単一パラメータ関数を渡します。これはリスト要素を受け取り、要素の比較キーを返す関数です。リストはその比較キーを使ってソートされます。続く例はリストを大文字小文字区別なく並び替えます:

    >>> L = ['A', 'b', 'c', 'D']
    >>> L.sort()                 # Case-sensitive sort
    >>> L
    ['A', 'D', 'b', 'c']
    >>> # Using 'key' parameter to sort list
    >>> L.sort(key=lambda x: x.lower())
    >>> L
    ['A', 'b', 'c', 'D']
    >>> # Old-fashioned way
    >>> L.sort(cmp=lambda x,y: cmp(x.lower(), y.lower()))
    >>> L
    ['A', 'b', 'c', 'D']
    

    例の最後のものは cmp パラメータを使っています。これが大文字小文字区別のない並び替えの昔ながらの方法です。むろん動きます。が、 key パラメータでのやり方より遅いです。 cmp では lower() メソッド呼び出しが比較ごとなので要素ごとに 2 回呼び出すことになりますが、 key だと呼び出しはそれぞれの要素ごとに lower() 呼び出しを一回だけで済ませられます。

    単純なキー関数や比較関数には、しばしば lambda 関数を避けて非束縛メソッドを使えます。例えば上記の大文字小文字によらない並べ替えはこのように書くのが最善です:

    >>> L.sort(key=str.lower)
    >>> L
    ['A', 'b', 'c', 'D']
    

    最後の reverse パラメータはブーリアン値を取ります。真ならばリストは逆順にソートされます。 L.sort(); L.reverse() と書く代わりにこれからは L.sort(reverse=True) と書けます。

    ソートの結果がステーブル(安定)であることが保障されるようになりました。つまり 2 つの要素が同列である場合、入力と同じ順序が保たれます。例えば人物リストを名前でソートしたのちに年齢でソートすると結果は、年齢でソートされていますが同年齢の人物は名前順です。

    (All changes to sort() contributed by Raymond Hettinger.)

  • 新たに追加されたビルトイン関数 sorted(iterable) はインプレイスなメソッド list.sort() と似た振る舞いをしますが、式内で使えます。違いは:

  • 入力には任意のイテラブルを取れます;

  • 新しく構築されたコピーをソートし、オリジナルは無傷のままにします; そして

  • 式として新しいソート済みコピーを返します。

    >>> L = [9,7,8,3,2,4,1,6,5]
    >>> [10+i for i in sorted(L)]       # usable in a list comprehension
    [11, 12, 13, 14, 15, 16, 17, 18, 19]
    >>> L                               # original is left unchanged
    [9,7,8,3,2,4,1,6,5]
    >>> sorted('Monty Python')          # any iterable may be an input
    [' ', 'M', 'P', 'h', 'n', 'n', 'o', 'o', 't', 't', 'y', 'y']
    
    >>> # List the contents of a dict sorted by key values
    >>> colormap = dict(red=1, blue=2, green=3, black=4, yellow=5)
    >>> for k, v in sorted(colormap.iteritems()):
    ...     print k, v
    ...
    black 4
    blue 2
    green 3
    red 1
    yellow 5
    

    (Contributed by Raymond Hettinger.)

  • 整数演算はもはや OverflowWarning は引き起こしません。 OverflowWarning 警告は Python 2.5 で撤廃されます。

  • インタプリタに新たに -m スイッチが加わりました。これは名前を取り、 sys.path にある対応するモジュールを検索し、そしてそのモジュールをスクリプトとして実行します。たとえば Python プロファイラを python -m profile で起動することが出来るようになりました。 (Contributed by Nick Coghlan.)

  • eval(expr, globals, locals) 関数と execfile(filename, globals, locals) 関数、 exec 文が locals パラメータに任意のマッピング型を受け取れるようになりました。以前は正規の Python 辞書である必要がありました。 (Contributed by Raymond Hettinger.)

  • ビルトイン関数の zip()itertools.izip() が引数なしで呼ばれた場合に空リストを返すようになりました。以前は TypeError 例外でした。これにより可変引数リストをこなしやすくなります:

    >>> def transpose(array):
    ...    return zip(*array)
    ...
    >>> transpose([(1,2,3), (4,5,6)])
    [(1, 4), (2, 5), (3, 6)]
    >>> transpose([])
    []
    

    (Contributed by Raymond Hettinger.)

  • Encountering a failure while importing a module no longer leaves a partially-initialized module object in sys.modules. The incomplete module object left behind would fool further imports of the same module into succeeding, leading to confusing errors. (Fixed by Tim Peters.)

  • None が定数になっています。 None という名前に新しい値を割り当てようとするコードは、今では構文エラーになります。 (Contributed by Raymond Hettinger.)

最適化

  • The inner loops for list and tuple slicing were optimized and now run about one-third faster. The inner loops for dictionaries were also optimized, resulting in performance boosts for keys(), values(), items(), iterkeys(), itervalues(), and iteritems(). (Contributed by Raymond Hettinger.)
  • The machinery for growing and shrinking lists was optimized for speed and for space efficiency. Appending and popping from lists now runs faster due to more efficient code paths and less frequent use of the underlying system realloc(). List comprehensions also benefit. list.extend() was also optimized and no longer converts its argument into a temporary list before extending the base list. (Contributed by Raymond Hettinger.)
  • list(), tuple(), map(), filter(), and zip() now run several times faster with non-sequence arguments that supply a __len__() method. (Contributed by Raymond Hettinger.)
  • The methods list.__getitem__(), dict.__getitem__(), and dict.__contains__() are now implemented as method_descriptor objects rather than wrapper_descriptor objects. This form of access doubles their performance and makes them more suitable for use as arguments to functionals: map(mydict.__getitem__, keylist). (Contributed by Raymond Hettinger.)
  • Added a new opcode, LIST_APPEND, that simplifies the generated bytecode for list comprehensions and speeds them up by about a third. (Contributed by Raymond Hettinger.)
  • The peephole bytecode optimizer has been improved to produce shorter, faster bytecode; remarkably, the resulting bytecode is more readable. (Enhanced by Raymond Hettinger.)
  • String concatenations in statements of the form s = s + "abc" and s += "abc" are now performed more efficiently in certain circumstances. This optimization won’t be present in other Python implementations such as Jython, so you shouldn’t rely on it; using the join() method of strings is still recommended when you want to efficiently glue a large number of strings together. (Contributed by Armin Rigo.)

The net result of the 2.4 optimizations is that Python 2.4 runs the pystone benchmark around 5% faster than Python 2.3 and 35% faster than Python 2.2. (pystone is not a particularly good benchmark, but it’s the most commonly used measurement of Python’s performance. Your own applications may show greater or smaller benefits from Python 2.4.)

新たなモジュール、改良されたモジュール、非推奨のモジュール

いつものように、Python の標準ライブラリには数多くの拡張とバグ修正がありました。ここでは最も注目に値する変更について、モジュールの辞書順に列挙します。変更の完全なリストについてはソースツリーの Misc/NEWS を調べるか、あるいは全ての詳細について CVS ログに目を通してみてください。

  • asyncore モジュールの loop() 関数に、 count パラメータが追加されました。これはポーリングのループ回数を制限するものです。デフォルトは無限ループです。

  • The base64 module now has more complete RFC 3548 support for Base64, Base32, and Base16 encoding and decoding, including optional case folding and optional alternative alphabets. (Contributed by Barry Warsaw.)

  • bisect モジュールが性能改善のために C 実装を使うようになりました。 (Contributed by Dmitry Vasiliev.)

  • Hye-Shik Chang によって保守されている東アジアのコーデックの CJKCodecs コレクションが Python 2.4 に統合されました。新たなエンコーディングは:

  • Chinese (PRC): gb2312, gbk, gb18030, big5hkscs, hz

  • Chinese (ROC): big5, cp950

  • Japanese: cp932, euc-jis-2004, euc-jp, euc-jisx0213, iso-2022-jp,

    iso-2022-jp-1, iso-2022-jp-2, iso-2022-jp-3, iso-2022-jp-ext, iso-2022-jp-2004, shift-jis, shift-jisx0213, shift-jis-2004

  • Korean: cp949, euc-kr, johab, iso-2022-kr

  • ほか、新たなエンコーディングが追加されています: HP Roman8, ISO_8859-11, ISO_8859-16, PCTP-154, TIS-620.

  • UTF-8, UTF-16 コーデックが部分的な入力を受け取った場合により上手に処理するようになりました。以前は StreamReader クラスは不足データを読み出そうと試みるために、それがストリームからデコード処理を再開することを不可能にしていました。 read() メソッドは今ではそのとき読めているデータを返し、次の呼び出しで以前の読み残しのデコード処理から再開します。(Implemented by Walter Dörwald.)

  • There is a new collections module for various specialized collection datatypes. Currently it contains just one type, deque, a double-ended queue that supports efficiently adding and removing elements from either end:

    >>> from collections import deque
    >>> d = deque('ghi')        # make a new deque with three items
    >>> d.append('j')           # add a new entry to the right side
    >>> d.appendleft('f')       # add a new entry to the left side
    >>> d                       # show the representation of the deque
    deque(['f', 'g', 'h', 'i', 'j'])
    >>> d.pop()                 # return and remove the rightmost item
    'j'
    >>> d.popleft()             # return and remove the leftmost item
    'f'
    >>> list(d)                 # list the contents of the deque
    ['g', 'h', 'i']
    >>> 'h' in d                # search the deque
    True
    

    Queuethreading のようないくつかのモジュールで、 collections.deque を生かして性能改善を成し遂げています。 (Contributed by Raymond Hettinger.)

  • ConfigParser クラスは少し拡張されました。 read() メソッドが解析成功したファイルのリストを返すようになり、 set() メソッドは value 引数が文字列でないと TypeError を送出するようになりました。(Contributed by John Belmonte and David Goodger.)

  • curses モジュールが ncurses 拡張の use_default_colors() をサポートするようになりました。透明性をサポートするターミナルを持つプラットフォームならば、このことで透明背景に出来ます。 (Contributed by Jörg Lehmann.)

  • difflib モジュールに HtmlDiff クラスが追加されています。これは対象テキストをサイドバイサイドで視覚化する HTML テーブルを作ります。 (Contributed by Dan Gass.)

  • email パッケージがバージョン 3.0 に更新されています。多くの非推奨だった API が削除され、Python 2.3 以前のバージョンへのサポートが削除されています。パッケージのバージョン 3.0 は MIME メッセージについての漸増的な新パーサを使います。これは email.FeedParser モジュールで利用可能です。この新パーサはメモリ内に全てのメッセージを読み込んでおく必要がなく、メッセージが不正であっても例外は投げません; 代わりにメッセージの全ての問題についてを defect 属性に記録します。 (Developed by Anthony Baxter, Barry Warsaw, Thomas Wouters, and others.)

  • heapq モジュールは C に変換されました。性能改善は 10 倍となり、モジュールはより大きなデータを扱うのに相応しいものになりました。加えて、モジュールには新しく 2 つの関数が追加されました。それは nlargest()nsmallest() で、データセット内の大きいものから N 番目まで、小さいものから N 番目までを、高価な完全なソートを要することなく取り出すのに使います。(Contributed by Raymond Hettinger.)

  • httplib モジュールに、HTTP 関連の種々の RFC ドキュメントで定義されている HTTP ステータスコードについての定数群が追加されました。定数名は例えば OK, CREATED, CONTINUE, MOVED_PERMANENTLY のようなものです。完全なリストは pydoc を使って列挙してください。 (Contributed by Andrew Eland.)

  • imaplib モジュールが IMAP の THREAD コマンドをサポートするようになりました。 (contributed by Yves Dionne) また、 deleteacl() メソッドと myrights() メソッドが追加されました。 (contributed by Arnaud Mazin).

  • itertools モジュールに groupby(iterable[, *func*]) 関数が追加されました。 iterable は何か要素のストリームを返すものをイテレート出来るもので、省略可能な func パラメータは要素を取ってキー値を返す関数です。省略されればキーは要素自身です。 groupby() は要素群をキー値の合致ごとサブシーケンスにグループ化して、キー値とサブシーケンスに対するイテレータを組とする 2 要素タプルのシリーズを返します。

    例をお見せするのが早いでしょう。ここでは key 関数は単に数値が偶数か奇数かを返すだけです。 groupby() の結果は偶数または奇数の一連の流れを返します:

    >>> import itertools
    >>> L = [2, 4, 6, 7, 8, 9, 11, 12, 14]
    >>> for key_val, it in itertools.groupby(L, lambda x: x % 2):
    ...    print key_val, list(it)
    ...
    0 [2, 4, 6]
    1 [7]
    0 [8]
    1 [9, 11]
    0 [12, 14]
    >>>
    

    groupby() は典型的にはソート済み入力に使います。 groupby() のロジックは除外、数え上げ、重複要素の特定を手軽に行う Unix の uniq フィルタに似ています:

    >>> word = 'abracadabra'
    >>> letters = sorted(word)   # Turn string into a sorted list of letters
    >>> letters
    ['a', 'a', 'a', 'a', 'a', 'b', 'b', 'c', 'd', 'r', 'r']
    >>> for k, g in itertools.groupby(letters):
    ...    print k, list(g)
    ...
    a ['a', 'a', 'a', 'a', 'a']
    b ['b', 'b']
    c ['c']
    d ['d']
    r ['r', 'r']
    >>> # List unique letters
    >>> [k for k, g in groupby(letters)]
    ['a', 'b', 'c', 'd', 'r']
    >>> # Count letter occurrences
    >>> [(k, len(list(g))) for k, g in groupby(letters)]
    [('a', 5), ('b', 2), ('c', 1), ('d', 1), ('r', 2)]
    

    (Contributed by Hye-Shik Chang.)

  • itertools には tee(iterator, N) という新たな関数も追加されています。これは iterator の、独立した N 個の複製イテレータを返します。 N は省略されればデフォルトは 2 です。:

    >>> L = [1,2,3]
    >>> i1, i2 = itertools.tee(L)
    >>> i1,i2
    (<itertools.tee object at 0x402c2080>, <itertools.tee object at 0x402c2090>)
    >>> list(i1)               # Run the first iterator to exhaustion
    [1, 2, 3]
    >>> list(i2)               # Run the second iterator to exhaustion
    [1, 2, 3]
    

    tee() がイテレータから返される値のコピーを維持する必要があることに注意してください。最悪の場合はそれら全てを維持する必要があるかもしれません。ですのでこれは長丁場の入力に対して、先行するイテレータが後続のイテレータの遥か先を突っ走れる場合には注意深く使わなければなりません。その分断が大きいようであれば、 list() を代わりに使うほうが良いかもしれません。イテレータたちが相互に近い場所を追跡する場合は tee() は理想的です。ブックマーク、ウィンドウ処理、あるいは先読みイテレータといったものに適用出来るのではないでしょうか。 (Contributed by Raymond Hettinger.)

  • locale モジュールに数多くの関数が追加されました。例えば bind_textdomain_codeset() は特定のエンコーディングを指定し、 l\*gettext 系の関数は選択されたエンコーディングでメッセージを返します。(Contributed by Gustavo Niemeyer.)

  • logging パッケージの basicConfig() 関数に、ログ設定を簡単にするいくつかのキーワード引数が追加されました。デフォルトの振る舞いはログメッセージを標準エラー出力に出力することですが、様々なキーワード引数でログを特定のファイルに書いたり、ログのフォーマットを変えたり、ロギングのレベルを変えたり出来ます。例えば:

    import logging
    logging.basicConfig(filename='/var/log/application.log',
        level=0,  # Log all messages
        format='%(levelname):%(process):%(thread):%(message)')
    

    ほかの logging パッケージへの追加としては、 便利メソッド log(level, msg) や、ログファイルを時間間隔でローテートするクラス TimedRotatingFileHandler などがあります。モジュールには元々 RotatingFileHandler が含まれており、こちらはファイルが特定のサイズを超過した場合にローテートするものです。両クラスとも新しく導出された BaseRotatingHandler 基底クラスから派生していて、これはまた別のローテートするハンドラを実装するのに使えます。

    (Changes implemented by Vinay Sajip.)

  • marshal モジュールが、データ構造のアンパックで内部化した文字列を共有するようになりました。これはある種の pickle 文字列のサイズを切り詰めるでしょうが、主要な効能は .pyc ファイルが顕著に小さくなることです。(Contributed by Martin von Löwis.)

  • nntplib モジュールの NNTP クラスに description() メソッドと descriptions() メソッドが追加されています。各々単一の、もしくは範囲で、ニュースグループを抽出します。 (Contributed by Jürgen A. Erhard.)

  • operator モジュールに 2 つの関数 attrgetter(attr)itemgetter(index) が追加されています。両関数ともに、単一引数を取ってそれに対応する属性かアイテムを返す呼び出し可能オブジェクトを返します。これら呼び出し可能オブジェクトは map()sorted() とともに使う際の優れたデータ抽出器になります。例えば:

    >>> L = [('c', 2), ('d', 1), ('a', 4), ('b', 3)]
    >>> map(operator.itemgetter(0), L)
    ['c', 'd', 'a', 'b']
    >>> map(operator.itemgetter(1), L)
    [2, 1, 4, 3]
    >>> sorted(L, key=operator.itemgetter(1)) # Sort list by second tuple item
    [('d', 1), ('c', 2), ('b', 3), ('a', 4)]
    

    (Contributed by Raymond Hettinger.)

  • optparse モジュールが色々更新されました。モジュールはメッセージを gettext.gettext() を通して Optik のヘルプとエラーメッセージを国際化するのを可能にしています。オプションのヘルプメッセージは文字列 '%default' を含めることが出来るようになっており、これはオプションのデフォルト値に置換されます。(Contributed by Greg Ward.)

  • 長期間の計画として、いつかの将来の Python バージョンでは email パッケージにより rfc822 モジュールを置き換える計画です。この目的のために、 email.utils.formatdate() が、 rfc822.formatdate() の置き換えとして使えるように変更されています。新しい e-mail 処理コードはこれを使って書くことを考えてください。(Change implemented by Anthony Baxter.)

  • os モジュールに urandom(n) が追加されました。これは n バイトの乱数データを含む文字列を返します。この関数はプラットフォーム固有の乱数発生源にアクセスします。例えば Linux での /dev/urandom や Windows での CryptoAPI です。 (Contributed by Trevor Perrin.)

  • もう一つの新規関数 os.path.lexists(path)path によって指定されたファイルがそれがシンボリックリンクかどうかによらず、存在している場合に真を返します。これは、既存の os.path.exists(path) 関数が path がシンボリックリンクでその指し先が存在しない場合に偽を返すのとは異なります。 (Contributed by Beni Cherniavsky.)

  • os モジュールの下層にある posix モジュールに getsid() 関数が追加されました。 (Contributed by J. Raynor.)

  • poplib モジュールが POP over SSL をサポートするようになりました. (Contributed by Hector Urtubia.)

  • profile モジュールが C 拡張の関数をプロファイル出来るようになりました。 (Contributed by Nick Bastin.)

  • random モジュールに、 getrandbits(N) 関数が追加されました。 N ビット長の長整数を返します。既存の randrange() メソッドは getrandbits() を適切な場所で使うようになり、任意の大きな乱数値生成をより効果的にしています。 (Contributed by Raymond Hettinger.)

  • re モジュールの正規表現言語が拡張されて、単純な条件式 (?(group)A|B) を書けるようになっています。 group は数値グループ ID か正規表現内で (?P<group>...) で定義したグループ名のどちらかです。指定したグループが合致した場合は、正規表現パターン A が文字列に対してテストされ、そうでなければパターン B が代わりに試されます。(Contributed by Gustavo Niemeyer.)

  • re モジュールはもう再帰をすることはありません。Gustavo Niemeyer による膨大な量の仕事のおかげです。再帰する正規表現エンジンでは、ある種のパターンでは大量の C スタック空間を消費し、スタックのオーバーフローを起こすことがありました。例えば表現 (a|b)+ が文字 a から成る 3 万バイトの文字列に対してマッチすると、一文字ごとに一つのスタックフレームを消費していました。Python 2.3 ではスタックオーバーフローのチェックを試みて RuntimeError を投げようとしましたが、ある種のパターンではチェックをすり抜けてしまって、運が悪いとセグメンテーション違反を起こしていました。Python 2.4 の正規表現エンジンではこのパターンと問題を起こすことなくマッチ出来ます。

  • signal モジュールで、 signal.signal() へのパラメータのエラーチェックを厳しくしています。例えば SIGKILL シグナルへのハンドラはセット出来ません。以前のバージョンの Python ではこれを黙って受け容れていましたが、2.4 では RuntimeError を投げます。

  • socket モジュールに 2 つ新しい関数が追加されています。 socketpair() 関数は接続したソケットのペアを返し、 getservbyport(port) は与えたポート番号からサービス名を探して返します。(Contributed by Dave Cole and Barry Warsaw.)

  • sys.exitfunc() 関数は非推奨となりました。コードは既存の atexit モジュールを使うべきです。これは複数の終了関数呼び出しを正しく処理出来ます。結果的には sys.exitfunc() は純粋に atexit のみから使われる内部インターフェイスとなるでしょう。

  • tarfile モジュールがデフォルトで GNU フォーマットを生成するようになっています。 (Contributed by Lars Gustäbel.)

  • threading モジュールで、スレッドローカルなデータのサポートについて、品の良い単純な方法でサポート出来ました。モジュールは local クラスを持っており、その属性値は異なるスレッドごとにローカルになります:

    import threading
    
    data = threading.local()
    data.number = 42
    data.url = ('www.python.org', 80)
    

    この場合他のスレッドは number 属性、 url 属性に自身の値を代入、抽出出来ます。 local クラスは属性初期化であるとかメソッドの追加のためにサブクラス化することも出来ます。 (Contributed by Jim Fulton.)

  • timeit モジュールはループを計測中は周期的なガーベージコレクションを自動で無効化するようになりました。この変更により、繰り返しの計測の比較がやりやすくなります。 (Contributed by Raymond Hettinger.)

  • weakref モジュールがサポートするオブジェクトが非常に幅広くなりました。これには Python 関数、クラスインスタンス, set, frozenset, deque, array と正規表現パターンオブジェクトが含まれます。(Contributed by Raymond Hettinger.)

  • xmlrpclib モジュールが、単一の HTTP 操作内で複数 XML-RPC 呼び出しを転送するためのマルチコール拡張をサポートするようになりました。 (Contributed by Brian Quinlan.)

  • mpz, rotor, xreadlines モジュールは削除されました。

cookielib

cookielib ライブラリは HTTP クッキーのクライアントサイドでの処理をサポートするもので、サーバサイドでのクッキーサポートを模倣したものです。クッキーはクッキー瓶 (cookie jar) に記憶されます。ライブラリはウェブサーバから提供されたクッキーをクッキー瓶に保存し、サーバに接続時に瓶からクッキーを取り出します。ウェブブラウザ内と同じく、ポリシーオブジェクトがクッキーを受け容れるかどうかを制御します。

セッションを跨いでクッキーを記憶するために、2 つのクッキー瓶実装が提供されています。一つは Netscape フォーマットでクッキーを記憶するのでアプリケーションは Mozilla か Lynx のクッキーファイルを使え、もう一つは Perl の libwww ライブラリと同じフォーマットでクッキーを記憶します。

urllib2cookielib と連携するように変更されました: HTTPCookieProcessor がアクセスしている URL で使われるクッキー瓶を管理します。

このモジュールは John J. Lee により寄稿されました。

doctest

Edward Loper と Tim Peters のおかげにより、 doctest モジュールに注目に値するリファクタリングが入りました。テストはこれまで通り単純に doctest.testmod() を実行するすることで行えますが、リファクタリングはモジュールの操作をカスタマイズする色々な手段を提供してくれます。

新規クラス DocTestFinder は指定したオブジェクトの docstring からテストを抽出します:

def f (x, y):
    """>>> f(2,2)
4
>>> f(3,2)
6
    """
    return x*y

finder = doctest.DocTestFinder()

# Get list of DocTest instances
tests = finder.find(f)

新規クラス DocTestRunner はテストを個々に実行し、結果の要約を生成出来ます:

runner = doctest.DocTestRunner()
for t in tests:
    tried, failed = runner.run(t)

runner.summarize(verbose=1)

上の例はこのような出力を生成します:

1 items passed all tests:
   2 tests in f
2 tests in 1 items.
2 passed and 0 failed.
Test passed.

DocTestRunner は実際の出力と結果の期待値の比較に、 OutputChecker のインスタンスを使います。このクラスはその振る舞いをカスタマイズする色々なフラグを取ります。意欲的なユーザであれば OutputChecker の完全な新しいサブクラスも書けます。

デフォルトの出力チェッカーは多くのお手軽機能を持っています。例えば doctest.ELLIPSIS オプションフラグは、出力の期待値内での省略記号 (...) と任意文字列を一致するとみなし、瑣末な部分が変化するような出力に簡単に適合するように出来ます:

def o (n):
    """>>> o(1)
<__main__.C instance at 0x...>
>>>
"""

もう一つの特殊文字列 <BLANKLINE> は空行に合致します:

def p (n):
    """>>> p(1)
<BLANKLINE>
>>>
"""

もう一つの新機能は出力の diff スタイル出力で、オプションフラグに doctest.REPORT_UDIFF (unified diffs), doctest.REPORT_CDIFF (context diffs), doctest.REPORT_NDIFF (delta-style) を指定することで利用出来ます。例えば以下があるとして:

def g (n):
    """>>> g(4)
here
is
a
lengthy
>>>"""
    L = 'here is a rather lengthy list of words'.split()
    for word in L[:n]:
        print word

Running the above function’s tests with doctest.REPORT_UDIFF specified, you get the following output:

**********************************************************************
File "t.py", line 15, in g
Failed example:
    g(4)
Differences (unified diff with -expected +actual):
    @@ -2,3 +2,3 @@
     is
     a
    -lengthy
    +rather
**********************************************************************

ビルドならびに C API の変更

Python のビルド過程と C API の変更は以下の通りです:

  • 拡張関数からの戻り値として一般的に使うための 3 つの便利なマクロが追加されています: Py_RETURN_NONE, Py_RETURN_TRUE, Py_RETURN_FALSE (Contributed by Brett Cannon.)
  • もう一つの新規マクロ Py_CLEAR(obj)obj の参照カウントをデクリメントの上で obj をヌルポインタにセットします。 (Contributed by Jim Fulton.)
  • 新規関数 PyTuple_Pack(N, obj1, obj2, ..., objN) は Python オブジェクトの可変長引数リストからタプルを構築します。 (Contributed by Raymond Hettinger.)
  • 新規関数 PyDict_Contains(d, k) は、処理内で起こる例外のマスキングなしでの高速なルックアップを実装しています。 (Contributed by Raymond Hettinger.)
  • Py_IS_NAN(X) マクロは float または double の X が NaN の場合に 1 を返します。 (Contributed by Tim Peters.)
  • C コードは新たに追加された PyEval_ThreadsInitialized() 関数を呼び出すことで、必要のないロックを避けることが出来ます。これは任意のスレッド操作が実行されているかどうかを教えてくれます。この関数が偽を返すなら、ロック操作は必要ありません。 (Contributed by Nick Coghlan.)
  • 新規関数 PyArg_VaParseTupleAndKeywords()PyArg_ParseTupleAndKeywords() と同じですが、たくさんの引数の代わりに va_list を取ることだけが違います。(Contributed by Greg Chapman.)
  • 新たなメソッドフラグ METH_COEXISTS は、同じ名前を持っている PyCFunction と共存する、スロット内で定義される関数を許します。これは set.__contains__() のようなメソッドへのアクセス時間を半分にします。 (Contributed by Raymond Hettinger.)
  • Python can now be built with additional profiling for the interpreter itself, intended as an aid to people developing the Python core. Providing --enable-profiling to the configure script will let you profile the interpreter with gprof, and providing the --with-tsc switch enables profiling using the Pentium’s Time-Stamp-Counter register. Note that the --with-tsc switch is slightly misnamed, because the profiling feature also works on the PowerPC platform, though that processor architecture doesn’t call that register "the TSC register". (Contributed by Jeremy Hylton.)
  • tracebackobject 型は PyTracebackObject にリネームされました。

ポート特有の変更

  • Windows ポートは MSVC++ 6 と 7.1 でビルド出来ます。 (Contributed by Martin von Löwis.)

Python 2.4 への移植

このセクションでは前述の変更により必要となるかもしれないコードの変更を列挙します:

  • 大き過ぎる値を持つ左シフトと 16 進/ 8 進定数が FutureWarning を引き起こした上で 32 ビットまたは 64 ビットに制限される、という振る舞いはもうしません。代わりに長整数を返します。
  • 整数演算はもはや OverflowWarning は引き起こしません。 OverflowWarning 警告は Python 2.5 で撤廃されます。
  • ビルトイン関数の zip()itertools.izip() が引数なしで呼ばれた場合に、 TypeError 例外を起こすのではなく空リストを返すようになりました。
  • You can no longer compare the date and datetime instances provided by the datetime module. Two instances of different classes will now always be unequal, and relative comparisons (<, >) will raise a TypeError.
  • dircache.listdir() は空リストを返す代わりに呼び出し元に例外を投げます。
  • LexicalHandler.startDTD() はパブリックでシステムの ID を間違った順序で受け取っていました。これは修正されました; この間違った順序に依存したアプリケーションは修正しなければなりません。
  • fcntl.ioctl()mutate_flag 引数が省略されて問題に関係がある場合は警告を出します。
  • tarfile モジュールがデフォルトで GNU フォーマットを生成するようになっています。
  • Encountering a failure while importing a module no longer leaves a partially-initialized module object in sys.modules.
  • None が定数になっています。 None という名前に新しい値を割り当てようとするコードは、今では構文エラーになります。
  • signals.signal() 関数は、ある種の不正な値では RuntimeError を投げるようになっています。以前はこれらエラーは黙って通していました。例えばもう SIGKILL へはハンドラは渡せません。

謝辞

著者は提案の申し出や修正、様々なこの記事の草稿の助けをしてくれた以下の人々に感謝します: Koray Can, Hye-Shik Chang, Michael Dyck, Raymond Hettinger, Brian Hurt, Hamish Lawson, Fredrik Lundh, Sean Reifschneider, Sadruddin Rejeb.