学海无涯沉下心来 @padma0 - Tumblr Blog

Text processing one-liners: Ruby vs. Awk

Since my review of a book about Awk, I’ve been thinking a lot about text processing in the Unix stream-oriented workflow. Before learning Awk, I used Sed for easy text substitution stuff, yet my go-to language for text processing was Ruby: I have written many small programs that simply iterate over each lines of a stream, processing. However, hailing from Perl, which hailed from Awk, Ruby is fully featured for text processing directly from the command line. As I was checking out its array of command-line options, the methods of its Kernel module and its multitude of predefined global variables, I wondered if those Awk one-liner programs would be just as easy and concise in Ruby.

So I verified by translating all of Eric Pement’s Awk one-liners to Ruby one-liners. I come away with multiple tricks and observations as to the respective behaviors of Ruby and Awk, so let me show you them.

•18+ Adults Only

Watch Anya Live on Cam

Anya is live and ready to show you everything. Watch her strip, dance, and perform exclusive shows just for you. Interact in real-time and make your fantasies come true.

✓ Live Streaming✓ Interactive Chat✓ Private Shows✓ HD Quality

Anya is LIVE right now

FREE

Free to watch • No registration required • HD streaming

coderchina-blog

虚拟化技术已经开始深入改变我们程序员的日常生活了。今天，我给大家说的是如何使用Docker技术快速构建自己的开发环境。这里Docker技术，大家如果关心当前虚拟化技术的成果的话，一定会关注到这个技术。它是使用Linux…

#docker #fig

Sixth Team Shared -- Sidekiq

今天来聊聊Sidekiq。

Sidekiq 是一个多线程的后台任务处理系统，当我们的后台中有一些操作需要较长的时间处理，我们不希望同步等待这些操作完成，而希望这些操作异步完成之后告诉我们就好。这个时候我们就可以使用Sidekiq了。当然，异步处理不一定使用多线程，也可以使用多进程，比如Resque（github出品）。进程作为系统资源拥有的基本单位，天生可以被多核调度；线程作为调度和分派的基本单位，不一定能被多核调度，还要看多线程的实现机制。（Ruby2.0之前的多线程通过GIL实现，无法被多核调度。Ruby多线程具体可点我。）

继续说Sidekiq和Resque，他们两个都是用redis作为message queue来运作的。前面说了Resque用的是多进程，所以消耗的内存会多一些，而Sidekiq借助了Celluoid，实现了Ruby上真正意义的多线程。Celluoid是一个基于Actor模型（又一个吊吊的模型）的并发框架。

下面继续说Sidekiq有些啥：

Job

在 Sidekiq 中的 Job 指的是某一个任务的一次执行, 注意与我们通常意义上说 “一个 Job” 指的是一类 Job.

Worker

因为 Sidekiq 是使用 Celluoid 来完成其多线程的控制的, 而 Celluoid 是 Ruby 中的多线程模式 Actor 模式的实现, 所以在 Sidekiq 中的 Worker 我们以拟人的方式去理解. 我拥有一个工人, 不过有一点要区分的是这些 Worker 都是按照”操作手册”在执行任务, 所以他不会被限制在某一类任务上.

Queue

队列的意义在于区分任务并且让任务排队, Sidekiq 中将每一类的任务使用一个 Queue 来区分开.

Redis Server

指存储任务的 Redis 来源, 在 Sidekiq 2.x 时代其有一个瓶颈就是无论多少个 Sidekiq Instance 但只能拥有一个 Redis Server, 也就是任务处理的最大速度被限制在了单台 Redis 服务器每秒的处理速度, 大约在 5000 job/s, 但是在 Sidekiq 3.0 以后, 其扩展了 redis_pool 的参数, 每一个 Worker 可以选择使用 Redis Server.

Redis Client

Redis 作为一个任务提交者, 透过 Worker 向指定的 Redis Client 中提交任务.

附上Sidekiq的演示视频，配置教程1，配置教程2。

Sidekiq有一些最佳实践：

输入给Job的参数要小而简单，不要传递一个ruby对象（Date、Time都不可以！）。因为Sidekiq在执行Worker.perform_async(arg)的时候会将arg序列化为JSON，然后传给Redis存储的。

将你的Job设计符合idempotent（等幂？）和transactional（事务的）。idempotent指的是无论Job跑多少次都得是一样的结果。比如Job运行到一半出错了，能成功抛出错误并进行重试，直到Job成功执行。而transactional指的是Job在运行过程中涉及数据库操作时，失败要能回滚。

拥抱并发。比如你的（很多）Jobs将访问数据库，由于多个Job同时访问数据库会加重负担，这时候可以使用连接池来限制Jobs的访问。

#ruby #sidekiq

Fifth Team Shared — Ruby State Machines

OK，今天我们来看看Ruby世界中的状态机。首先我们来了解一下什么事状态机。

有限状态机（英语：finite-state machine，缩写：FSM）又称有限状态自动机，简称状态机，是表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型。

以上转自wikipedia

在粗略了解了一下FSM之后，我们来看一看在Ruby世界有哪些关于FSM的gem。从The Ruby Toolbox上，我们可以看到所有相关包的状态，比如：（根据使用人数从上到下排列）

State machine

AASM

Workflow

第一个State machine，曾经最多人使用，其功能强大，可惜在一年多之前开始就没有维护了（2013-5-7），不考虑使用。

第二个AASM更新较为频繁，而且在github的issue块可以看到存在问题较少，主要是包名冲突问题，maintainer积极修复，值得使用。

第三个Workflow更新也较为频繁，问题也不多，语法比较AASM略微简单一些，比较适合入门使用，值得使用。

综上考虑，我们先对AASM尝一尝鲜。

gem install aasm

或者在Gemfile中加入

gem ‘aasm’

class Job include AASM aasm do state :sleeping, :initial => true state :running state :cleaning event :run do transitions :from => :sleeping, :to => :running end event :clean do transitions :from => :running, :to => :cleaning end event :sleep do transitions :from => [:running, :cleaning], :to => :sleeping end end end

通过状态机我们可以得到对象Job的状态：

job = Job.new job.sleeping? # => true job.may_run? # => true job.run job.running? # => true job.sleeping? # => false job.may_run? # => false job.run # => raises AASM::InvalidTransition

如果你不喜欢抛出异常信息，可以让AASM“别抱怨”：

class Job ... aasm :whiny_transitions => false do ... end end job.running? # => true job.may_run? # => false job.run # => false

当触发一个event事件，你可以传递一个block块，当过渡条件成功时执行。

job.run do job.user.notify_job_ran # Will be called if job.may_run? is true end

写法思路：

include AASM

定义state 状态

定义event 事件

定义transition 过渡条件

class Job include AASM aasm do state :sleeping, :initial => true, :before_enter => :do_something state :running event :run, :after => Proc.new { do_afterwards } do transitions :from => :sleeping, :to => :running, :on_transition => Proc.new {|obj, *args| obj.set_process(*args) } end event :sleep do after do ... end error do |e| ... end transitions :from => :running, :to => :sleeping end end def set_process(name) ... end def do_something ... end def do_afterwards ... end end

上面的程序中，do_something会在进入sleeping状态时就触发，而do_afterwards会在run的过渡条件（从sleeping到running）完成时触发。

如果在事件处理过程中产生error，这个异常会传到:error回调方法中，你可以在该方法中处理它或者向上抛异常。

class Job include AASM aasm do state :sleeping, :initial => true state :running state :cleaning event :run do transitions :from => :sleeping, :to => :running end event :clean do transitions :from => :running, :to => :cleaning end event :sleep do transitions :from => :running, :to => :sleeping, :guard => :cleaning_needed? end end def cleaning_needed? false end end job = Job.new job.run job.may_sleep? # => false job.sleep # => raises AASM::InvalidTransition

#ruby

Fourth Team Shared -- Scope vs Class method in Rails

OK，Model中的Scope和类方法，这两者哪个好一度是Rails社区讨论的热点……这里我们将较为客观地分析一下两个的区别。

1、Scope的定义

有两种方式：

class Post < ActiveRecord::Base scope :published, where(status: 'published') # 第一种 scope :draft, -> { where(status: 'draft') } # 第二种 end

区别：第一种会在Post被调用时就初始化(evaluated)，而第二种则是在调用draft的时候才会初始化。在Rails 4中，第一种已经被弃用，因为第一种会在某些情况下导致意想不到的错误，比如：

class Post < ActiveRecord::Base scope :published_last_week, where('published_at >= ?', 1.week.ago) end

这里会在Post初始化的时候得到1.week.ago，而不是每次调用scope的1.week.ago。

2、Scope其实也是类方法

Active Record其实会通过以下形式将scope转化为类方法：

def self.scope(name, body) singleton_class.send(:define_method, name, &body) end

比如上面的scope :published会转化为：

def self.published where(status: 'published') end

3、Scope总是可串连的(chainable)

scope总是返回关系(relation)，而类方法不是，具体例子：

class Post < ActiveRecord::Base scope :by_status, -> status { where(status: status) } scope :recent, -> { order("posts.updated_at DESC") } end

通过scope我们可以这样串连使用：

Post.by_status('published').recent # SELECT "posts".* FROM "posts" WHERE "posts"."status" = 'published' # ORDER BY posts.updated_at DESC

类似的类方法：

class Post < ActiveRecord::Base def self.by_status(status) where(status: status) end def self.recent order("posts.updated_at DESC") end end

一般情况下，可以跟上面一样调用，但是当参数为空时，则：

Post.by_status(nil).recent # SELECT "posts".* FROM "posts" WHERE "posts"."status" IS NULL # ORDER BY posts.updated_at DESC Post.by_status('').recent # SELECT "posts".* FROM "posts" WHERE "posts"."status" = '' # ORDER BY posts.updated_at DESC

正常来说我们不希望有这样的查询，因此我们会加上判断条件：

使用scope：

scope :by_status, -> status { where(status: status) if status.present? }

Post.by_status(nil).recent # SELECT "posts".* FROM "posts" ORDER BY posts.updated_at DESC Post.by_status('').recent # SELECT "posts".* FROM "posts" ORDER BY posts.updated_at DESC

使用类方法：

class Post < ActiveRecord::Base def self.by_status(status) where(status: status) if status.present? end end

Post.by_status('').recent NoMethodError: undefined method `recent' for nil:NilClass

噢，这下出错了。这就是两者的不同之处了。但是类方法也是能达到同样效果的：

def self.by_status(status) if status.present? where(status: status) else all end end

可是需要注意的是all只有在Rails 4中才返回关系(relation)，若是之前的版本Rails 3.2.x还是使用scope比较好。

4、Scope是可扩展的

我们都用过kaminari这个gem来分页，比如Post.page(2).per(15)，但这是怎么实现的呢？其实用得就是scope，抽象的代码如下：

scope :page, -> num { # some limit + offset logic here for pagination } do def per(num) # more logic here end def total_pages # some more here end def first_page? # and a bit more end def last_page? # and so on end end

当然我们也可以用类方法来实现，虽然有点啰啰嗦嗦的样子：

def self.page(num) scope = # some limit + offset logic here for pagination scope.extend PaginationExtensions scope end module PaginationExtensions def per(num) # more logic here end def total_pages # some more here end def first_page? # and a bit more end def last_page? # and so on end end

5、Scope也有缺点？

Fine，很多人觉得scope应该尽量避免使用因为有一种坑爹的情况，如下：

Post.published_before(date).published_after(date)

在这种情况下第二个scope会完全覆盖第一个scope，而如果使用类方法则不会出现这种情况。我还没在Rails 4上测试过，不知道这个修复了没有。

#rails

•18+ Adults Only

Watch Anya Live on Cam

Anya is live and ready to show you everything. Watch her strip, dance, and perform exclusive shows just for you. Interact in real-time and make your fantasies come true.

✓ Live Streaming✓ Interactive Chat✓ Private Shows✓ HD Quality

Anya is LIVE right now

FREE

Free to watch • No registration required • HD streaming

Third Team Shared -- Vim

1、gf 指令, 假如你在 app/controllers/blogs_controller.rb 文件中, 光标在 def index 方法上, 按下 gf 指令, Oh My God, 自动跳转至 app/views/blogs/index.html.slim 了, 别急, ctrl + 6 切回去吧.

继续来看 gf, * 是光标位置, 右边是按下 gf 后的跳转.

2、ctrl + e 打开nerd-tree

3、vim-easymotion, 它是用来文件内快速短途跳转工具. 我们不用鼠标, 自然要发挥好键盘.

在一个文件内, 光标置至一个方法上, 输入 ,,w( 对, 两个逗号 ), 然后我们发现有些字母变色了, 我们再次输入变色字母就非常准确的跳转光标过去了.

同理, 输入 ,,b 是向前跳。

4、The-NERD-Commenter, 在任何文件中, 先用虚拟行选中将被注释的行( 即大写的 V ), 然后按下 ,cc, 然后看到没, 已经被注释了, 反之, 则使用 ,cu 来反注释. 当然, 你还可以使用 vim 自带的 u 来撤消, ctrl+r 来重来.

5、ctrl + n 自动选择所有单词，并且可以同时编辑

6、使用 > 来向右移动选中的几行, < 向左.

7、使用 :10 直接跳转至第 10 行

8、从网页上复制回代码，先使用 set paste 设置为粘贴模式, 再粘贴就不会因为自动对齐代码而乱掉, 再使用 set nopaste 来取消粘贴模式.

9、vim 原生的为我们提供了比较强大的全文搜索命令 :vim[grep]

:vim[grep][!] /{pattern}/[g][j] {file} ...

第一个字段中括号里的 grep 是可选字段，所以我通常只适用 :vim ；

第二个字段是要带入一个正则表达式，可以在 vim 中使用 :h regex 来查看用法；

最后一个字段是要搜索的文件，如果希望递归搜索，要设置 ** ，举例来说，比如我想搜索当前目录下的所有 .c 文件，那么就要写成 *.c ，如果我要对此目录以及其递归子目录下的所有 .c 文件进行搜索，就要写成 **/*.c 。

搜索结果会保存在 quickfix list 中，可以使用 :cw 查看。

例如

:vim /^main\>/ **/*.c

此命令会搜索当前目录以及其递归子目录下的所有 .c 文件，查找匹配，以 main 单词为开头的内容。

10、ctrlp.vim这玩意就牛b了，ctrl+p能自动搜寻.git项目下的文件。

ctrl+p之后ctrl+d，可将原来的路径搜索转为文件名搜索

ctrl+p之后ctrl+f，可将查找过的文件都列出来

ctrl+p之后ctrl+y，可以直接产生新的文件

输入：bd退出所在的文件tab

ctrl+p之后ctrl+z，可以标记多个文件，然后ctrl+o打开。

ctrl+p是我非常常用的指令, 非常酷.

#vim

Second Team Shared -- RSpec

1、严格来说，describe和context是可以互换的，但倾向这样用：describe用来表示需要实现的功能，而context针对该功能的不同情况。

2、new和create的区别:

new 只是在内存中生成对象，还需要使用save之后才会保存到数据库中。

create会直接既生成对象，也保存到数据库中。

3、数据验证：

expect(Contact.new(first name:nil)).to have(1).errors_on(:first name)

4、not_to和to_not好像是别名

5、测试相等时，推荐使用eq而不是==

6、检测包含：

expect(Contact.by_letter(“J”)).to_not include smith

7、before块会在该describe块（在该块中）中的所有测试用例之前执行，但不会在该代码块外部执行。即在it之内首先执行。

8、FactoryGirl配置

config.include FactoryGirl::Syntax::Methods

即可将FactoryGirl.create()省略为create().

9、FactoryGirl的Faker库用于生成真实的测试数据，是一个虚拟数据生成工具。

10、FactoryGirl的回调函数适合用来测试嵌套的属性：

before(:build),after(:build),before(:create),after(:create).

.后面加代码块。

11、FactoryGirl的attribute_for方法生成一个由属性组成的Hash，而不是对象。attributes_for()方法用于模拟浏览器和服务器之间的交互。

12、控制器测试的基本句法：先是HTTP请求类型(post)，接着是控制器动作名(:create)，然后是一个可选的传入动作的参数；

13、控制器动作实例化的变量可以通过assigns(:variable_name)方法获取。

14、控制器动作的返回结果可以通过response获取。

15、和控制器动作交互的基本DSL句法：每个HTTP请求方法都对应于一个方法(get)，其后跟着动作的Symbol形式(:show)，然后是传入的请求参数(id:contact)

16、检测渲染的模板：

expect(response).to render_template :show

17、检测创建动作：

expect(assigns(:contact)).to be_a_new(Contact)

18、检测更新动作：

expect{ post :create, contact: attributes_for(:invalid_contact) }.to_not change(Contact, :count)

19、patch :update之后注意对对象的reload。

20、检测删除动作：

expect{ delete :destroy, id @contact }.to change(Contact :count).by(-1)

21、测试返回csv：

get :index, format: :cdv

expect(response.headers[‘Content-Type’]).to have_content ‘text/csv’

22、检测返回内容：

expect(response.body).to have_content ‘Ason’

expect(Contact.to_csv).to match /Ason/

23、检测重定向：

expect(response).to redirect_to login_url

24、消除重复的测试代码：

一、在多个describe和context块之间共享用例；

二、使用辅助宏

三、自定义Rspec匹配器

25、共享用例：

shared_example(“xxx”) do … end

使用：

it_behaves_like “xxx”

26、辅助宏定义：

spec/support/login_macros.rb module LoginMacros def set_xxx end end spec/spec_helper.rb Dir[Rails.root.join(“spec/support/**/*.rb”)].each { |f| require f } Rspec.configure do |config| # other Rspec configuration omitted … config.include LoginMacros end

这样就可以在测试中直接调用该方法set_xxx

27、如果将自定义的文件(比如require_login.rb)放到RSpec默认提供的匹配器路径下spec/support/matchers/，那么RSpec会自动载入。其文件定义为：

#rails #rspec

First Team Share -- Chat Room

I have built a chat room application before by using fifo on Linux. Today, I am going to build a little TCP ruby chat application using the ruby standard library Socket. I'm using ruby 2.1.0 and Mac OS.

First we need to take a short overview of TCP:

TCP is one of the core protocols of the Internet protocol suite (IP), and is so common that the entire suite is often called TCP/IP. Web browsers use TCP when they connect to servers on the World Wide Web, and it is used to deliver email and transfer files from one location to another. For more detaled information visit TCP Wikipedia

This is how our TCP chat room is going to work:

Description:

We will create a server that receives the client connections and stores them in data dictionaries. These dictionaries will keep track of what room the client is located in, receive messages, and relay the messages to other users. Each user MUST have a different username, which will be our primary key to look up our connections in the data dictionary so we can keep track of connected users. Once completed, we’ll test our chat by opening different command terminals, one for each simulated user.

First we are going to create the necessary files: ‘server.rb’ and ‘client.rb’ In server.rb and client.rb we have to require the Socket library.

Then create the respective classes with some attributes to handle users.

Client

The client receives a server instance so it can establish a connection with the server. We need to initialize a request and response to send and receive messages through the server. Right now our @response and @request objects are null, but later on we are going to build two threads and assign them to our objects to read and write at the same time.

Server

The server receives a port which will be our channel for establishing a connection between users. The server listens to the port for any event and sends a response to everyone who is interested. The initializer also creates three 3 hashes:

@connections is a pool of users connected to server.

@rooms is keyed on room name and holds the users in each room.

@clients are our connected client instances

Now we can track which user is in which room. It’s important to reiterate that the client name/username must be unique. Here is what our hashes will look like with some data:

Then we need to create two threads on the client side so it can read/write messages at the same time. Without this functionality, our chat would be very boring. Imagine typing your message and only after finishing being able to look for an answer without the posibility of doing both at the same time. This is how most chat clients work basically.

To sum up, here is the client.rb file:

On the server side we need something similar, basically one thread per connected user. This way, we can handle as many users as possible without any concurrency issues.

For our test, the IP ip is local. The port MUST be the same on the client and server side and, in this case. Remember, ports are virtual:

A port is not a physical device, but an abstraction to facilitate communication between a server and a client. A machine can have a maximum of 65536 port numbers (ranging from 0 to 65535). The port numbers are divided into three ranges: the Well Known Ports, the Registered Ports, and the Dynamic and/or Private Ports. – Brief Description of TCP and UDP

We’ll also clean up all of the extra characters at the end of a message, such as the end of the line, tabs, etc.

The implementation is quite simple. All we need is to finish up with the run method, and verify the uniqueness of the username provided. If the username is taken, tell the client with an error message and kill the connection. Otherwise, give the client a successfull connection message.

Right now our chat is almost finished, but there is one method left for handling all the messages between all connected users. Without it, our users won’t be able to send messages to each other.

All the listen_user_messages method does is listen to the user messages and send them to all the other users. Now, call this method inside the run method in the server instance and that’s it.

To sum up, here is the entire server.rb file:

Finally, we can run our chat on the terminal.

#ruby #socket #team share

Node-Webkit Native UI API 中文翻译（2）

又翻译了一下Node-webkit的内容，这次翻译的是：

Handling files and arguments

文件操作

要求 node-webkit 版本>= v0.3.2

在一些应用中，比如说文本编辑器和IDE，具有添加文件到应用的功能是相当重要的，例如很多平台中的Open With。

命令行

在node-webkit，当一个用户在终端下用你的应用去打开文件，比如说：your-app file.txt file2.txt，那么file.txt file2.txt就会被记录在App.argv中，而且可以从该数组中取出。

var gui = require('nw.gui'); console.log(gui.App.argv); // Print "file.txt, file2.txt"

而且如果你在图形界面（如Windows的资源管理器，Mac的Finder和Linux的nautilus）用你的应用打开文件，该文件的路径同样会传入到App.argv中。

在已打开的应用中打开文件

很多时候，当在你的应用中打开几个文件的时候，你更希望在一个会话中打开他们。例如，对于一个IDE来说，如果你已经打开该IDE，然后你打开一个代码文件，你当然希望就在当前窗口就能编辑该代码文件。

对于node-webkit应用，这个问题已经被默认解决了。当你打开一个文件，node-webkit会检查你的应用是否已经打开。如果没有，则会打开你的应用且将文件的路径传给App.argv；要是已经打开了，本来应该打开的第二个应用会把打开文件的命令，通过open事件，传给已经打开了的应用。

// Listen to `open` event gui.App.on('open', function(cmdline) { console.log('command line: ' + cmdline); });

在v0.7.0版本之前，回调函数是不一样的：它定义为在参数中传递文件路径的函数作为回调函数的参数，然后回调函数会对每个传递文件路径的函数进行调用。

注解：

（1）open事件只会传给一个独立的应用，即已经打包好的应用。

（2）在Mac上，当你拖拽一个文件到你的应用中的停靠栏图标，open事件统统会被触发。

（3）在Mac上，你应该在node-webkit.app/Contents/Info.plist中注册你的应用所支持的文件类型。

（4）在Windows和Linux中，如果你不想要在已打开的应用中打开文件，你可以通过在package.json中设置single-instance为false来关闭它。因为操作系统的特性，而在Mac上无法做到。

App.argv和open事件之间的不同

你也许会对两种打开文件的不同方法而感到困惑，他们之间的区别是：

（1）App.argv是在你应用启动的时候时使用的，而open则是传给一个已经启动了的应用。

（2）open时间需要传给一个独立的应用，而App.argv没有这个限制。

#node-webkit #翻译

Node-Webkit Native UI API 中文翻译（1）

今天心血来潮就翻译了一下文档，给自己加深印象也给有需要的人了解Node-Webkit。本人的翻译水平有限，请多指教。

API Overview and Notices

API 概述和须知

Native UI API 需要node-webkit >= 0.3.0

概述

下面介绍在node-webkit中创建native UI控制。一般来说，要加载Native UI 库，首先需要使用require函数加载nw.gui模块（我们的模块名遵循node规范，所以你不用担心会和其他node模块重名。

var gui = require('nw.gui');

然后像你创建js对象一般创建GUI元素：

// Standard way of creating elements var element = new gui.ElementName(option); // Example of creating a menu var menu = new gui.Menu({ title: 'Menu Title' });

title，label，icon和menu等属性的设置（set/get）直接通过使用对象的属性，就和你对DOM的操作一样，比如：

menu.title = 'New Title'; console.log('Menu title is', menu.title);

而方法如remove，append和insert，同样是GUI对象的方法：

menu.append(new gui.MenuItem({ label: 'Im an item' })); menu.removeAt(0);

子元素通常存储在items域中，可以通过索引获取：

for (var i = 0; i < menu.items.length; ++i) { console.log('MenuItem', i, menu.items[i]); }

同时请不要直接通过重新分配的方法来修改元素，比如:

menu.items[2] = new gui.MenuItem(...);

这是错误的做法。

想要修改元素可以通过这样：

menu.items[2].title = 'New Title'

如果想要替换一个元素，首先要remove它然后在insert。

除此之外，我们没有在你使用UI API出错的时候提供抛出异常的机制，所以请小心使用，如果你使用了一个删除了的元素或者传错类型，nowde-webkit会毫无警告地crash掉。

特别注意当你删除一个对象，你需要把它赋值为null，以防你不小心重新使用了它：

var tray = new gui.Tray(...); // blablabla... // We are done with it tray.remove(); tray = null; // This line is very important

EventEmitter

在ndoe-webkit，每个UI元素都继承了Node.js的EentEmitter，所以你可以像这样为他们添加监听事件：

menuitem.on('click', function() { console.log('Item is clicked'); });

不要做的事

最后，注意以下错误操作：

不要重新创建和重用UI元素。

不要重新分配一个元素，比如menu.items[0] = item 或者 item = new gui.MenuItem({}).

不要删除元素，比如delete item

不要修改UI的原型。

#node-webkit #翻译

•18+ Adults Only

Watch Anya Live on Cam

Anya is live and ready to show you everything. Watch her strip, dance, and perform exclusive shows just for you. Interact in real-time and make your fantasies come true.

✓ Live Streaming✓ Interactive Chat✓ Private Shows✓ HD Quality

Anya is LIVE right now

FREE

Free to watch • No registration required • HD streaming

MySQL新建数据库与表的字符编码问题

在MySQL中字符默认是使用latin的，而我们又需要使用utf8，因此在新建数据库的时候就需要指定配置：

当然我们每次新建都要如此配置的话，难免的有点不爽，因此找到如下牛文：

http://blog.csdn.net/qiyuexuelang/article/details/9049985

可惜是Windows版的，那我来个ubuntu版的吧。

首先查看自己的mysql版本，终端输入mysql -v，我的版本是5.5的。注意5.5版本是个分水岭，下面分开两种情况分析：

<5.5:

sudo vi /etc/mysql/my.cnf

在里面

[client]下添加：

default-character-set=utf8

[mysqld]下添加：

default-character-set=utf8

然后就保存退出 Esc :wq

$sudo service mysql restart

>=5.5:

sudo vi /etc/mysql/my.cnf

在里面

[client]下添加：

default-character-set=utf8

[mysqld]下添加：

character-set-server=utf8

collation-server=utf8_general_ci

然后就保存退出 Esc :wq

$sudo service mysql restart

黑体字为不同的部分，如果>=5.5版本的按照<5.5版本的修改就会在重启mysql的时候出现下面的错误：

start: Job failed to start

一般出现上面错误的原因还有磁盘空间不足，详细可见：

http://www.nginx.cn/901.html

之后就是进入mysql，然后输入show variables like '%char%';查看修改情况：

修改成功。

要是新手一开始就随意按照默认的来新建数据库的话，要怎么修改为utf8呢？可见下图：

由此可见，修改起来真得相当麻烦……也可以删掉数据库重新建……

#mysql

Linux下如何在特定时间执行特定任务

所需程序

atd服务

at命令

启动atd

# service atd restart atd stop/waiting atd start/running, process 11031

千万注意要在root下执行，不然会提示Rejected send message.在ubuntu上一般已经执行了，可用以下命令查看：

# service --status-all

at的使用

使用at的权限(因为安全性考虑最好设置)

在/etc/at.allow中设置可以使用at的账号

在/etc/at.deny中设置不可以使用at的账号

示例

1分钟后执行mkdir

$ at now + 1 minutes warning: commands will be executed using /bin/sh at> mkdir helloAt at> <EOT> job 1 at Wed Feb 6 14:36:00 2013

查看工作

# at -c 2 #!/bin/sh # atrun uid=0 gid=0 # ... $ mkdir helloAt

特定时间关机

$ at 14:00 2013-2-9 warning: commands will be executed using /bin/sh at> /bin/sync at> /bin/sync at> /sbin/shutdown -h now at> <EOT> job 4 at Sat Feb 9 14:00:00 2013

at如何执行

输入输出:标准输入输出会重定向到mailbox里，所以执行echo "hello"在终端下是看不到的

后台工作：系统会将at工作独立于shell,交给atd程序接管，即使关了shell也没关系

查询与删除at中的工作

查询:atq

删除:atrm jobid

batch:和at相似，只是在cpu负载低时才执行

2 循环执行的任务

所需程序

crontab

权限限制

/etc/cron.allow

/etc/cron.deny

示例

$ crontab -e #添加任务

进入编辑环境，使用vim编辑

格式：# m h dom mon dow command

m:minute, h:hour, dom:day of month

mon:month, dow:day of week

任务示例：0 5 * * 1 tar -zcf var/backups/home.tgz /home

*表示任何时间

$ crontab -l #查询任务

$ crontab -r #删除任务

3 可唤醒停机期间的工作任务

anacron:crontab任务因为关机没有执行，anacron可以在开机时检测没有执行的crontab任务，都执行一遍

引用自：http://www.xue5.com/Server/Web/672444.html

#linux

Linux根目录下各个文件夹的含义

/root —包含vmlinuz,initrd.img等启动文件，随便改动可能无法正常开机

/bin－Binary的缩写，存放用户的可执行程序，例如ls,cp,也包含其它的SHELL如：bash等

/boot－kernel 和boot配置文件

/etc－各种配置文件,比如Passwd等系统设置与管理的文件。/etc/x11--X Windows System的设置目录

/usr－用户程序

/usr/bin 存放用户可执行程序，如grep,mdir等 /usr/doc 存放各式程序文件的目录 /usr/include 保存提供C语言加载的header文件 /usr/include/X11 保存提供X Windows程序加载的header文件 /usr/info GNU程序文件目录 /usr/lib（/lib64) 函数库 /usr/lib(/lib64)/X11 函数库 /usr/local 提供自行安装的应用程序位置 /usr/man 存放在线说明文件目录 /usr/sbin 存放经常使用的程序，如showmount /usr/src 保存系统的源码文件 /usr/X11R6/bin 存放X Windows System的执行程序

/opt--- 附加的应用软件包，提供空间，较大的且固定的应用程序存储文件之用

/home－用户目录　　

/mnt--- 各项装置的文件系统加载点，例如：/mnt/cdrom是光驱的加载点

/tmp－临时文件

/var－可变信息区（file spool,logs,requests,mail,etc.),具有变动性质的相关程序目录，如log

/proc－进程信息，PS命令查询的信息与这里的相同，都是系统内核与程序执行的信息

/dev－接口设备文件目录，如你的硬盘：sda

/sbin－系统管理员执行程序，系统启动时所需的二进制程序

/lib--- 基本的共享库和核心模块，包含执行/bin和/sbin目录的二进制文件时所需的共享函数库library

#linux

Swap空间的作用

Swap不是内存空间，其实是一个磁盘分区。

当系统的物理内存不够用的时候，就需要将物理内存中的一部分空间释放出来，以供当前运行的程序使用。那些被释放的空间可能来自一些很长时间没有什么操作的程序，这些被释放的空间被临时保存到Swap空间中，等到那些程序要运行时，再从Swap中恢复保存的数据到内存中。这样，系统总是在物理内存不够时，才进行Swap交换。

有一点要声明的是，并不是所有从物理内存中交换出来的数据都会被放到Swap中（如果这样的话，Swap会不堪重负），有相当一部分的数据直接交换到文件系统。

Swap space 比内存要慢5-6个数量级。

尽量将交换分区安装在访问最频繁的数据区附近。

swap分区的大小设置:

( 内存大小 + Swap分区大小 ) * 80%或70% >= 程序需要占用总内存数

如果系统内存大小已经大于系统中所有任务最大内存使用大小，那么就根本没有必要设置swap分区了，如果这个时候设置上，那么就是白白占用了那些硬盘空间。

#linux #swap

awk之二

awk的action中的expression，即if(),while()这些语句其实都是c的语句，变量的命名规范都与c一样，因此这些语句中的变量是不需要像shell那样加$号才能使用。除此之外，awk还允许使用shell语句，这时候的使用变量就需要加$号了。

为了验证上面发现的规律，把源码下下来看了看：

http://packages.ubuntu.com/zh-cn/precise/gawk

意外地发现蛮有趣的，从main.c可以看到整个awk的运行过程，大致如下：

初始化所有变量，包括内部变量（NR，NF等），和用户定义的变量

转码，将输入的参数转成ANSI C

把每个参数放到树中

开始翻译整棵树，即运行具体命令。

你可能会问有什么有趣的地方，呵呵，自己去看源码就知道了。

#Linux #awk

•18+ Adults Only

Watch Anya Live on Cam

Anya is live and ready to show you everything. Watch her strip, dance, and perform exclusive shows just for you. Interact in real-time and make your fantasies come true.

✓ Live Streaming✓ Interactive Chat✓ Private Shows✓ HD Quality

Anya is LIVE right now

FREE

Free to watch • No registration required • HD streaming

awk

awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。基本上你可以用awk处理文本数据然后得到任何你想要的。它的根本语法是：

awk '{pattern + action}' 或者 awk 'pattern {action}'

pattern和action两者是可选的，如果没有模式，则action应用到全部记录，如果没有action，则输出匹配全部记录。默认情况下，每一个输入行都是一条记录，但用户可通过RS变量指定不同的分隔符进行分隔。

模式可以是以下任意一个：

/正则表达式/：使用通配符的扩展集。

关系表达式：可以用下面运算符表中的关系运算符进行操作，可以是字符串或数字的比较，如$2>$1选择第二个字段比第一个字段长的行。

模式匹配表达式：用运算符~(匹配)和~!(不匹配)。

模式，模式：指定一个行的范围。该语法不能包括BEGIN和END模式。

BEGIN：让用户指定在第一条输入记录被处理之前所发生的动作，通常可在这里设置全局变量。

END：让用户在最后一条输入记录被读取之后发生的动作。

操作由一人或多个命令、函数、表达式组成，之间由换行符或分号隔开，并位于大括号内。主要有四部份：

变量或数组赋值

输出命令

内置函数

控制流命令

记录

awk把每一个以换行符结束的行称为一个记录。

记录分隔符：默认的输入和输出的分隔符都是回车，保存在内建变量ORS和RS中。

$0变量：它指的是整条记录。如$ awk '{print $0}' test将输出test文件中的所有记录。

变量NR：一个计数器，每处理完一条记录，NR的值就增加1。如$ awk '{print NR,$0}' test将输出test文件中所有记录，并在记录前显示记录号。

域

记录中每个单词称做“域”，默认情况下以空格或tab分隔。awk可跟踪域的个数，并在内建变量NF中保存该值。如$ awk '{print $1,$3}' test将打印test文件中第一和第三个以空格分开的列(域)。

域分隔符

内建变量FS保存输入域分隔符的值，默认是空格或tab。我们可以通过-F命令行选项修改FS的值。如$ awk -F: '{print $1,$5}' test将打印以冒号为分隔符的第一，第五列的内容。

可以同时使用多个域分隔符，这时应该把分隔符写成放到方括号中，如$awk -F'[:\t]' '{print $1,$3}' test，表示以空格、冒号和tab作为分隔符。

输出域的分隔符默认是一个空格，保存在OFS中。如$ awk -F: '{print $1,$5}' test，$1和$5间的逗号就是OFS的值。

awk编程

变量

在awk中，变量不需要定义就可以直接使用，变量类型可以是数字或字符串。

赋值格式：Variable = expression，如$ awk '$1 ~/test/{count = $2 + $3; print count}' test,上式的作用是,awk先扫描第一个域，一旦test匹配，就把第二个域的值加上第三个域的值，并把结果赋值给变量count，最后打印出来。

awk可以在命令行中给变量赋值，然后将这个变量传输给awk脚本。如$ awk -F: -f awkscript month=4 year=2004 test，上式的month和year都是自定义变量，分别被赋值为4和2004。在awk脚本中，这些变量使用起来就象是在脚本中建立的一样。注意，如果参数前面出现test，那么在BEGIN语句中的变量就不能被使用。

域变量也可被赋值和修改，如$ awk '{$2 = 100 + $1; print }' test,上式表示，如果第二个域不存在，awk将计算表达式100加$1的值，并将其赋值给$2，如果第二个域存在，则用表达式的值覆盖$2原来的值。再例如：$ awk '$1 == "root"{$1 ="test";print}' test，如果第一个域的值是“root”，则把它赋值为“test”，注意，字符串一定要用双引号。

内建变量的使用。变量列表在前面已列出，现在举个例子说明一下。$ awk -F: '{IGNORECASE=1; $1 == "MARY"{print NR,$1,$2,$NF}'test，把IGNORECASE设为1代表忽略大小写，打印第一个域是mary的记录数、第一个域、第二个域和最后一个域。

BEGIN模块

BEGIN模块后紧跟着动作块，这个动作块在awk处理任何输入文件之前执行。所以它可以在没有任何输入的情况下进行测试。它通常用来改变内建变量的值，如OFS,RS和FS等，以及打印标题。如：$ awk 'BEGIN{FS=":"; OFS="\t"; ORS="\n\n"}{print $1,$2,$3}‘ test。上式表示，在处理输入文件以前，域分隔符(FS)被设为冒号，输出文件分隔符(OFS)被设置为制表符，输出记录分隔符(ORS)被设置为两个换行符。$ awk 'BEGIN{print "TITLE TEST"}只打印标题。

END模块

END不匹配任何的输入文件，但是执行动作块中的所有动作，它在整个输入文件处理完成后被执行。如$ awk 'END{print "The number of records is" NR}' test，上式将打印所有被处理的记录数。

重定向和管道

awk可使用shell的重定向符进行重定向输出，如：$ awk '$1 = 100 {print $1 > "output_file" }' test。上式表示如果第一个域的值等于100，则把它输出到output_file中。也可以用>>来重定向输出，但不清空文件，只做追加操作。

输出重定向需用到getline函数。getline从标准输入、管道或者当前正在处理的文件之外的其他输入文件获得输入。它负责从输入获得下一行的内容，并给NF,NR和FNR等内建变量赋值。如果得到一条记录，getline函数返回1，如果到达文件的末尾就返回0，如果出现错误，例如打开文件失败，就返回-1。如：

$ awk 'BEGIN{ "date" | getline d; print d}' test。执行linux的date命令，并通过管道输出给getline，然后再把输出赋值给自定义变量d，并打印它。

$ awk 'BEGIN{"date" | getline d; split(d,mon); print mon[2]}' test。执行shell的date命令，并通过管道输出给getline，然后getline从管道中读取并将输入赋值给d，split函数把变量d转化成数组mon，然后打印数组mon的第二个元素。

$ awk 'BEGIN{while( "ls" | getline) print}'，命令ls的输出传递给geline作为输入，循环使getline从ls的输出中读取一行，并把它打印到屏幕。这里没有输入文件，因为BEGIN块在打开输入文件前执行，所以可以忽略输入文件。

$ awk 'BEGIN{printf "What is your name?"; getline name < "/dev/tty" } $1 ~name {print "Found" name on line ", NR "."} END{print "See you," name "."} test。在屏幕上打印”What is your name?",并等待用户应答。当一行输入完毕后，getline函数从终端接收该行输入，并把它储存在自定义变量name中。如果第一个域匹配变量name的值，print函数就被执行，END块打印See you和name的值。

$ awk 'BEGIN{while (getline < "/etc/passwd" > 0) lc++; print lc}'。awk将逐行读取文件/etc/passwd的内容，在到达文件末尾前，计数器lc一直增加，当到末尾时，打印lc的值。注意，如果文件不存在，getline返回-1，如果到达文件的末尾就返回0，如果读到一行，就返回1，所以命令 while (getline < "/etc/passwd")在文件不存在的情况下将陷入无限循环，因为返回-1表示逻辑真。

可以在awk中打开一个管道，且同一时刻只能有一个管道存在。通过close()可关闭管道。如：$ awk '{print $1, $2 | "sort" }' test END {close("sort")}。awd把print语句的输出通过管道作为linux命令sort的输入,END块执行关闭管道操作。

system函数可以在awk中执行linux的命令。如：$ awk 'BEGIN{system("clear")'。

fflush函数用以刷新输出缓冲区，如果没有参数，就刷新标准输出的缓冲区，如果以空字符串为参数，如fflush(""),则刷新所有文件和管道的输出缓冲区。

条件语句

awk中的条件语句是从C语言中借鉴过来的，可控制程序的流程，基本一样。

格式：

{if (expression){ statement; statement; ... } else if (expression){ statement; statement; ... } else { statement; statement; ... } }

循环

awk有三种循环:while循环；for循环；special for循环。

$ awk '{ i = 1; while ( i <= NF ) { print NF,$i; i++}}' test。变量的初始值为1，若i小于可等于NF(记录中域的个数),则执行打印语句，且i增加1。直到i的值大于NF.

$ awk '{for (i = 1; i<NF; i++) print NF,$i}' test。作用同上。

break，continue语句。break用于在满足条件的情况下跳出循环；continue用于在满足条件的情况下忽略后面的语句，直接返回循环的顶端。如：

{for ( x=3; x<=NF; x++) if ($x<0){print "Bottomed out!"; break}} {for ( x=3; x<=NF; x++) if ($x==0){print "Get next item"; continue}}

next语句从输入文件中读取一行，然后从头开始执行awk脚本。如：

{if ($1 ~/test/){next} else {print} }

exit语句用于结束awk程序，但不会略过END块。退出状态为0代表成功，非零值表示出错。

下标与关联数组

用变量作为数组下标。如：$ awk {name[x++]=$2};END{for(i=0;i<NR;i++) print i,name[i]}' test。数组name中的下标是一个自定义变量x，awk初始化x的值为0，在每次使用后增加1。第二个域的值被赋给name数组的各个元素。在END模块中，for循环被用于循环整个数组，从下标为0的元素开始，打印那些存储在数组中的值。因为下标是关健字，所以它不一定从0开始，可以从任何值开始。

special for循环用于读取关联数组中的元素。格式如下：

{for (item in arrayname){ print arrayname[item] } }

$ awk '/^tom/{name[NR]=$1}; END{for(i in name){print name[i]}}' test。打印有值的数组元素。打印的顺序是随机的。

用字符串作为下标。如：count["test"]

用域值作为数组的下标。一种新的for循环方式，for (index_value in array) statement。如:$ awk '{count[$1]++} END{for(name in count) print name,count[name]}' test。该语句将打印$1中字符串出现的次数。它首先以第一个域作数组count的下标，第一个域变化，索引就变化。

delete函数用于删除数组元素。如：$ awk '{line[x++]=$1} END{for(x in line) delete(line[x])}' test。分配给数组line的是第一个域的值，所有记录处理完成后，special for循环将删除每一个元素。

awk的内建函数

字符串函数

sub函数（单记录匹配）、gsub函数（全文匹配）、index函数、length函数、substr函数、match函数、toupper和tolower函数、split函数

时间函数

systime函数、strftime函数

内建数学函数

atan2(x,y)、cos(x)、exp(x)、int(x)、log(x)、rand()、sin(x)、sqrt(x)

自定义函数

在awk中还可自定义函数，格式如下：

function name ( parameter, parameter, parameter, ... ) { statements return expression # the return statement and expression are optional }

#linux #awk

MapReduce的二次排序原理

在《实战Hadoop》那本书上的第五章介绍了如何巧用复合键让系统完成排序。可是介绍的不是很完整，给出的也只有伪代码，让我在实现的时候走了些弯路……没关系，Google之后找到一堆好文：

http://my.oschina.net/leejun2005/blog/132785

此文结合几篇文章总结了一下，可以让我还是有疑问：为什么Map的结果根据Partitioner分到同一个Reducer中后并没有像如期那般进行归并排序？这就是为什么要setGroupingComparatorClass的原因了。见下文：

http://blog.sina.com.cn/s/blog_9bf980ad0100zk7r.html

其中提到：

通过Mapper产生复合键，以及上面两步，我们保证了相同自然键对应的记录都能到达同一个Reducer，并且按照我们所需要的方式排序。

虽然 (a#1) 1， (a#3) 3，和(a#100) 100这三个记录能被送到同一个Reducer，可是它们的键并不相同，所以对应这三个仍然是分开的记录，而我们希望他们被“组合”在一起！

MapReduce的灵活性机制体现在这里，允许应用指定如何判定键相同。如果我们告诉MapReduce Framework只按照复合键的自然键部分进行判定，那么对于三个记录(a#1) 1，(a#3) 3，和(a#100) 100，在MapReduce的“眼里”，由于自然键部分都是“a”，那么他们是相同的。因而对应的三个值1，3和100将被“组合”放在一个列表里（1，3，100）作为对应（a#1）的值。也就是说，首先(a#1,1)被处理，接着系统看到(a#3,3)，由于我们告诉系统这个键"a#3"和(a#1,1)的键"a#1"相同，系统将3作为和键"a#1"相关联的值来看待和进行“组合”；类似地，100也被作为和a#1相关联的值，等等。结果就是，传到Reducer的中间结果为(a#1, [1, 3, 100])。

这个判定键大小的部分通过以下来实现：首先实现一个Comparator类（譬如叫“MyOVGC”），只按照复合键中的自然键部分进行比较来重载compare方法；然后，在作业配置中指明使用该类。

这就是我想要的答案！

#mapreduce

Trending Blogs

Last Seen Blogs

学海无涯沉下心来